Workshop Elasticsearch - Notions de base

Sommaire

Concept
Vocabulaire
Alimenter un index
Requêter un index
Recherche full-text et pertinence
Agrégations

Concept

> Qu'est-ce qu'elasticsearch ?

Basé sur Apache Lucène
NOSQL
Indexation complète
Architecture distribuée et évolutive
JSON over http mais bien d'autres connecteurs
https://www.elastic.co/guide/en/elasticsearch/client/index.html

Vocabulaire

> Parlons la même langue

Nœud avec un index contenant un shard

Nœud : Machine physique avec une instance Elasticsearch
Index : Espace logique d'un nœud (~ base)
Shard : Index lucene stockant les données

Vocabulaire

> Parlons la même langue

Nœud avec 1 index de 2 shards et un de 2

Autre exemple
La moitié des données de l'index 1 est réparti sur chacun des 2 shards
Le nombre de shard ne peut être modifié a posteriori

Vocabulaire

> Parlons la même langue

Cluster de 2 nœuds avec un index répliqué

Cluster : Ensemble de nœuds répondant aux mêmes requêtes
Replica : Copie d'un index

Vocabulaire

> Parlons la même langue

Un index (~ base) contient un ou plusieurs

types (~ table) qui contiennent des

documents (~ ligne) objet JSON contenant

des métadonnées dont au minimum l'index, le type et l'id
des données consistant en des associations champ:valeur

Vocabulaire

> Parlons la même langue

les champs peuvent avoir les types suivants:

chaîne
nombre
booléen
date
geolocalisation
tableau de valeur

Alimenter un index

> Démonstration en REST

Création automatique des index à l'insertion du premier élément

curl -XPUT "localhost:9200/fr/user/esup-1" -d'
{
  "email": "guillaume.colson@univ.fr",
  "name": "Guillaume Colson",
  "username": "@goyome"
}'

{
  "_index": "fr",
  "_type": "user",
  "_id": "esup-1",
  "_version": 1,
  "_shards": {
    "total": 2,
    "successful": 1,
    "failed": 0
  },
  "created": true
}

Alimenter un index

> Démonstration en REST

Création par lot

curl -XPOST "localhost:9200/_bulk" --data-binaries'
  { "create": { "_index": "us", "_type": "user", "_id": "1" }}
  { "email" : "john@smith.com", "name" : "John Smith", "username" : "@john" }
  { "create": { "_index": "gb", "_type": "user", "_id": "2" }}
  { "email" : "mary@jones.com", "name" : "Mary Jones", "username" : "@mary" }
  '

Alimenter un index

> Démonstration en REST

Création par lot

  {
    "took": 391,
    "errors": false,
    "items": [
      {
        "create": {
          "_index": "us",
          "_type": "user",
          "_id": "1",
          "_version": 1,
          "_shards": {
            "total": 2,
            "successful": 1,
            "failed": 0
          },
          "status": 201
        }
      },
      {
        "create": {
          "_index": "gb",
          "_type": "user",
          ...

Alimenter un index

> Démonstration en REST

Création depuis un fichier

> fichier json contenant les tweets à importer

curl -XPOST "localhost:9200/_bulk?pretty" --data-binary @./path/to/your/tweets.json
  {
    "took" : 88,
    "errors" : false,
    "items" : [ {
      "create" : {
        "_index" : "gb",
        "_type" : "tweet",
        "_id" : "3",
        "_version" : 1,
        "_shards" : {
          "total" : 2,
          "successful" : 1,
          "failed" : 0
        },
        "status" : 201
      }
    }, {
      "create" : {
        "_index" : "us",
        "_type" : "tweet",
        ...

Alimenter un index

> Démonstration en REST

État du nœud dans kopf

Les 3 index sont créés et ont des documents

Requêter un index

> Démonstration en REST

Récupération d'un document spécifique

curl -XGET "localhost:9200/fr/user/esup-1"

{
  "_index": "fr",
  "_type": "user",
  "_id": "esup-1",
  "_version": 1,
  "found": true,
  "_source": {
    "email": "guillaume.colson@univ.fr",
    "name": "Guillaume Colson",
    "username": "@goyome"
  }
}

Requêter un index

> Démonstration en REST

Recherche des documents d'un certain type

curl -XGET "localhost:9200/us/tweet/_search"

{
  "took": 7,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": 6,
    "max_score": 1,
    "hits": [
      {
        "_index": "us",
        "_type": "tweet",
        "_id": "14",
        "_score": 1,
        "_source": {
          "date": "2014-09-24",
          "name": "John Smith",
          ...

Requêter un index

> Démonstration en REST

Recherche Light

curl -XGET "localhost:9200/_search?q=name:smith"

{
  "took": 3,
  "timed_out": false,
  "_shards": {
    "total": 16,
    "successful": 16,
    "failed": 0
  },
  "hits": {
    "total": 7,
    "max_score": 0.4451987,
    "hits": [
      {
        "_index": "us",
        "_type": "tweet",
        "_id": "8",
        "_score": 0.4451987,
        "_source": {
          "date": "2014-09-18",
          "name": "John Smith",
          "user_id": 1
        }
      },

          ...

Requêter un index

> Démonstration en REST

La même recherche en queryDSL
(Domain-Specific Language)

curl -XGET "localhost:9200/_search" -d'
{
  "query": {
    "match": {
      "name": "smith"
    }
  }
}'

Requêter un index

> Démonstration en REST

queryDSL pour des recherches plus complexes

curl -XGET "localhost:9200/us,gb/tweet/_search" -d'
  {
    "query": {
      "filtered": {
        "query": {
          "match": {
            "tweet": "elasticsearch"
          }
        },
        "filter": {
          "range": {
            "date": {
              "gte": "2014-09-20"
            }
          }
        }
      }
    }
  }'

Query pour rechercher les tweets qui contiennent elasticsearch
Filter pour ne prendre en compte que les tweets postérieurs au 20/09/2014

Requêter un index

> Démonstration en REST

queryDSL permet de faire des recherches plus complexes

...
"hits": [
  {
    "_index": "gb",
    "_type": "tweet",
    "_id": "13",
    "_score": 0.375,
    "_source": {
      "date": "2014-09-23",
      "name": "Mary Jones",
      "tweet": "So yes, I am an Elasticsearch fanboy",
      "user_id": 2
    }
  },
  {
    "_index": "us",
    "_type": "tweet",
    "_id": "10",
    "_score": 0.3125,
    "_source": {
      "date": "2014-09-20",
      "name": "John Smith",
      "tweet": "Elasticsearch surely is one of the hottest new NoSQL products",
      "user_id": 1
    }
  },
  ...

Requêter un index

> Démonstration en REST

Types de requête courants

match recherche la valeur dans le champ
multi_match idem mais sur plusieurs champs
range pour les dates et nombres
term recherche exacte de la valeur
terms recherche exacte avec plusieurs valeurs valides
exists / missing existence d'un champ (il ne peut être null)
bool permet d'associer plusieurs autres requêtes

Recherche plein-texte et pertinence

> Quel est le truc ?

Valeur exacte / analysée


                GET /_search?q=2014              # 12 resultats
                GET /_search?q=2014-09-15        # 12 resultats !
                GET /_search?q=date:2014-09-20   # 1  resultat
                GET /_search?q=date:2014         # 0  resultat !

Recherche plein-texte et pertinence

> Quel est le truc ?

Valeur exacte / analysée

Recherche de 2014 dans _all : 12
Recherche des valeurs 2014, 09 et 20 dans _all : 12
Recherche de la valeur exacte 2014-09-20 dans date : 1
Recherche de la valeur exacte 2014 dans date : 0

_all est un champ analysé
date est un champ à valeur exacte

Recherche plein-texte et pertinence

> Quel est le truc ?

Recherche plein-texte

curl -XGET "http://localhost:9200/_search" -d'
{
  "query": {
    "match": {
      "tweet": "elasticsearch is easy"
    }
  }
}'

Recherche plein-texte et pertinence

> Quel est le truc ?

Recherche plein texte

...
"hits": [
  {
    ...
    "_score": 0.4794072,
    "_source": {
      ...
      "tweet": "The Elasticsearch API is really easy to use",
    ...
  },
    ...
    "_score": 0.4082814,
      "tweet": "Elasticsearch is built for the cloud, easy to scale",
    ...
    "_score": 0.22818159,
      "tweet": "Elasticsearch surely is one of the hottest new NoSQL products",
    ...
    "_score": 0.11272853,
      "tweet": "Elasticsearch means full text search has never been so easy",
...

Recherche plein-texte et pertinence

> Quel est le truc ?

Pertinence

_score : pertinence du résultat par rapport à la requête
3 facteurs pris en compte pour le calculer :

Term frequency : nombre d'occurences dans le champ
Inverse document frequency : inverse de la fréquence d'apparition dans l'index
Field-length norm : Le terme a plus de poids s'il est présent dans un champ court

Agrégations

> Faites vos indicateurs !

Regroupement par terme

Les 4 termes les plus fréquemment rencontrés dans les tweets

curl -XGET "http://localhost:9200/us,gb/tweet/_search" -d'
  {
    "size": 0,
    "aggs": {
      "hot term in tweet": {
        "terms": {
          "field": "tweet",
          "size": 4
        }
      }
    }
  }'

Agrégations

> Faites vos indicateurs !

Regroupement par terme

...
"aggregations": {
  "hot term in tweet": {
    "doc_count_error_upper_bound": 0,
    "sum_other_doc_count": 72,
    "buckets": [
      {
        "key": "elasticsearch",
        "doc_count": 7
      },
      {
        "key": "is",
        "doc_count": 5
      },
      {
        "key": "the",
        "doc_count": 5
      },
      {
        "key": "i",
        "doc_count": 4
      }
      ...

Agrégations

> Faites vos indicateurs !

Regroupement par terme

Séparation des tweets en 2 périodes avant et après le 20/09/2014

curl -XGET "http://localhost:9200/us,gb/tweet/_search" -d'
{
  "size": 0,
  "aggs": {
    "Par date": {
      "range": {
        "field": "date",
        "ranges": [
          {
            "to": "2014-09-20"
          },
          {
            "from": "2014-09-20"
          }
        ]
      }
    }
  }
}'

Agrégations

> Faites vos indicateurs !

Regroupement par terme

...
"aggregations": {
  "Par date": {
    "buckets": [
      {
        "key": "*-2014-09-20T00:00:00.000Z",
        "to": 1411171200000,
        "to_as_string": "2014-09-20T00:00:00.000Z",
        "doc_count": 7
      },
      {
        "key": "2014-09-20T00:00:00.000Z-*",
        "from": 1411171200000,
        "from_as_string": "2014-09-20T00:00:00.000Z",
        "doc_count": 5
      }
      ...

Conclusion

> Même s'il reste beaucoup de choses à dire...

The guide :
https://www.elastic.co/guide/en/elasticsearch/guide/current/index.html
Aide-mémoire : http://elasticsearch-cheatsheet.jolicode.com/
Sense et kopf vous aideront à comprendre ce qu'il se passe
Demander de l'aide sur esup-utilisateurs@esup-portail.org

Conclusion

> Des questions ?

Merci de votre attention ! Des questions ?

https://flic.kr/p/6KDtm

Notions de base

Création automatique des index à l'insertion du premier élément

Création par lot

Création par lot

Création depuis un fichier

État du nœud dans kopf

Récupération d'un document spécifique

Recherche des documents d'un certain type

Recherche Light

La même recherche en queryDSL (Domain-Specific Language)

queryDSL pour des recherches plus complexes

queryDSL permet de faire des recherches plus complexes

Types de requête courants

Valeur exacte / analysée

Valeur exacte / analysée

Recherche plein-texte

Recherche plein texte

Pertinence

Regroupement par terme

Regroupement par terme

Regroupement par terme

Regroupement par terme

La même recherche en queryDSL
(Domain-Specific Language)