ElasticSearch 相关查询

相关度算法

下面我们看一下常见的几种相关度算法

TF/IDF

对于一篇几百字几千字的文章，如何生成足以准确表示该文章的特征向量呢？

就像论文一样，摘要、关键词毫无疑问就是全篇最核心的内容，因此，我们要设法提取一篇文档的关键词，并对每个关键词计算其对应的特征权值，从而形成特征向量，这里涉及一个非常简单但又相当强大的算法，即TF-IDF算法。

TF/IDF实际上两个影响相关度的因素，即TF和IDF，其中TF是词项频率简称词频，指一个词项在当前文档中出现的次数，而IDF则是逆向文档频率，指词项在所有文档中出现的次数。

Elasticsearch提供的几种算法中都或多或少有TF/IDF的思想，例如BM25算法虽然是通过概率论推导而来，但最终的计算公式与TF/IDF在本质上也是一致的。

词频 - TF

词频，英文缩写为TF，英文全写为Term Frequency，词频用于描述检索词在一篇文档中出现的频率，即：检索词出现的次数除以文档的总字数。

衡量一条查询语句和结果文档相关性的简单方法：简单地将搜索语句中的每一个词的TF进行相加。

例如，我的苹果，即为：TF(我) + TF(的) + TF(苹果)。

停用词，英文名为Stop Word，例如我的苹果中的的在文档中可能出现很多次，但贡献的相关度却几乎没有用处，因此不应该考虑他们的词频。

逆文档频率 - IDF

相对于逆文档频率，我们先来说说文档频率。

文档频率，英文缩写为DF，英文全写为Document Frequency，用于检索词在所有文档中出现的频率。

苹果 在相对较少的文档中出现
我 在相对较多的文档中出现
的 在大量的文档中出现

逆文档频率，英文全写为：Inverse Document Frequency，简单说也就是：log(全部文档数 / 检索词出现过的文档总数)

TF-IDF

TF-IDF的本质就是将TF求和变成了加权求和，TF(我)*IDF(我)+TF(的)*IDF(的)+TF(苹果)*IDF(苹果)

	出现的文档数	总文档数	IDF
我	5亿	10亿	log(2) = 1
的	10亿	10亿	log(1) = 0
苹果	200万	10亿	log(500) = 8.96

可见，在使用TF/IDF计算评分时必须要用到词项在文档中出现的频率，即词频，默认情况下文档text类型字段在编入索引时都会记录词频，Elasticsearch中的classic算法实际上是使用Lucene的实用评分函数(Practical Scoring Function)，这个评分函数结合了布尔模型、TF/IDF和向量空间模型来共同计算分值，该算法是早期Elasticsearch运算相关度的算法，现在已经改为BM25了。

BM25

BM25是Best Match25的简写，由于最早应用于一个名为Okapi的系统中，所以很多文献中也称之为 Okapi BM25

BM25算法被认为是当今最先进的相关度算法之一，Elasticsearch文档字段的默认相关度算法就是采用BM25，它属于概率模型，依据贝叶斯公式，经过一系列的严格推导以后，得出了一个关于IDF的公式

同时在这个基础上，最终的公式上加入了对TF、当前文档的长度、词频饱和度、长度归一化等因素的考虑：

词频饱和度

所谓词频饱和度指的是当词频超过一定数量之后，它对相关度的影响将趋于饱和

换句话说，词频10次的相关度比词频1次的分值要大很多，但100次10次之间差距就不会那么明显了。在BM25算法中，控制词频饱和度的参数是k1，默认值为1.2，参数k1的值越小词频对相关度的影响就会越快趋于饱和，而值越大词频饱和度变化越慢。

举例来说，如果将k1设置为1，词频达到10时就会趋于饱和；而当k1设置为100时词频在100时才会趋于饱和，一般来说k1的取值范围为[1.2, 2.0]。

长度归一化

一般来说，查询条件中的词项出现在较短的文本中，比出现在较长的文本中对结果的相关性影响更大。

举例来说，如果一篇文章的标题中包含elasticsearch，那么这篇文章是专门介绍elasticsearch的可能性比只在文章内容中出现elasticsearch的可能要高很多，但这种比较其实是建立在两个不同的字段上，而在实际检索时往往是针对相同的字段做比较。

比如在两篇文章的标题中都出现了elasticsearch，那么哪一篇文章的相关度更高呢?

BM25针对这种情况对文本长度做了所谓的归一化处理，即考虑当前文档字段的文本长度与所有文档的字段平均长度的比值，而这个比值就是长度归一化因素。

为了控制长度归一化对相关度的影响，在长度归一化中加了一个控制参数b，这个值的取值范围为[0.0, 1.0]，取值0.0时会禁用归一化，而取值1.0则会完全启用归一化，默认值为0. 75。

和TF/IDF

下面我们看看BM25和TF/IDF的区别

从Elasticsearch5.0开始，默认算法由TF-IDF改为BM25
和经典的TF-IDF相比，当TF无限增加时，BM25计算的相关性分数会趋于一个固定数值。

相关性查询

查看TF-IDF

在查询语句时，我们可通过explain查看TF-IDF

GET logstash-village/_search
{
  "explain": true,
  "query": {
    "match": {
      "addr": "龙苑小区"
    }
  }
}

查询后可以看到TF-IDF的相关性评分

Boosting

Boosting是控制相关度的一种手段。

可选参数

返回匹配positive查询的文档，并降低匹配negative查询的文档相似度分

当boost > 1时，打分的权重相对性提升
当0 < boost <1时，打分的权重相对性降低
当boost <0时，贡献负分

这样就可以在不排除某些文档的前提下对文档进行查询，搜索结果中存在只不过相似度分数相比正常匹配的要低

应用场景

希望包含了某项内容的结果不是不出现，而是排序靠后

正常查询

GET logstash-village/_search
{
  "query": {
    "match": {
      "addr": "龙苑小区"
    }
  }
}

正常查询的时候我们发现内蒙古排在第一位

降低评分

我们不需要不太关注于内蒙古地区的数据，我们可以将内蒙古相关评分降低

GET logstash-village/_search
{
  "query": {
    "boosting": {
      "positive": {
        "match": {
          "addr": "龙苑小区"
        }
      },
      "negative": {
        "term": {
          "province": "内蒙古自治区"
        }
      },
      "negative_boost": 0.9
    }
  }
}

我们设置"negative_boost": 0.9，这样相关性评分就会降低，我们发现数据已经变了

布尔查询

一个bool查询,是一个或者多个查询子句的组合，总共包括4种子句，其中2种会影响算分，2种不影响算分

查询方式

在Elasticsearch中，有Query和 Filter两种不同的查询方式

Query : 相关性算分
Filter : 不需要算分 ,可以利用Cache，获得更好的性能

相关性并不只是全文本检索的专利，也适用于yes | no 的子句，匹配的子句越多，相关性评分越高，如果多条查询子句被合并为一条复合查询语句，比如 bool查询，则每个查询子句计算得出的评分会被合并到总的相关性评分中

bool查询

子查询可以任意顺序出现，可以嵌套多个查询，如果你的bool查询中，没有must条件,should中必须至少满足一条查询

GET logstash-village/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "addr": "龙源小区"
          }
        },
        {
          "range": {
            "greening": {
              "gte": 30
            }
          }
        }
      ],
      "must_not": [
        {
          "term": {
            "property_type": "公寓"
          }
        }
      ],
      "should": [
        {
          "term": {
            "province": "河南省"
          }
        },
        {
          "term": {
            "province": "安徽省"
          }
        }
      ],
      "filter": [
        {
          "range": {
            "built_year": {
              "gte": 2010,
              "lte": 2020
            }
          }
        }
      ]
    }
  }
}

通过bool查询查询地址包含龙苑小区，并且绿化率大于30%非公寓住宅，并且在省份在河南省或者安徽省，并且建造年份在2010-2020的小区住房

ElasticSearch 相关查询