
如果还没安装的点击安装ElasticSearch查看怎么安装
分词器
1.分词器
在Elasticsearch中,分词器(Tokenizer)是分析器(Analyzer)的一部分,它的主要职责是将文本输入(如字符串)分割成一系列的词元(tokens)。这些词元是搜索和索引的基础单元。
分词器的作用
分割文本:将输入文本按照特定的规则分割成独立的词元。记录位置信息:为每个词元记录其在原始文本中的位置信息,如起始和结束字符偏移量。记录词元顺序:确定词元的顺序,这对于短语查询和词近邻查询非常重要。
内置分词器
Whitespace Tokenizer:按空白字符分割文本。Standard Tokenizer:基于Unicode字符属性进行分词,类似于Java的String.split方法。Punctuation Tokenizer:按标点符号分割文本。Keyword Tokenizer:不进行分词,将整个输入文本作为一个词元。Pattern Tokenizer:使用正则表达式进行分词。
2.ik分词器

- 点击下载:注意你是什么版本的下什么版本,如:我的elasticsearch是7.6.2就下7.6.2
- 解压后找到你的
/usr/share/elasticsearch/plugins挂载的目录下,例如:1
2当初我挂载的是/docker/elasticsearch/plugins
-v /docker/elasticsearch/plugins:/usr/share/elasticsearch/plugins - 把解压后得到的
ik目录放入plugins,只要ik目录,别是ik/ik/ - 重启
3.测试分词器
- 使用默认
1
2
3
4POST _analyze
{
"text": "我是中国人"
} - 使用分词器
1
2
3
4
5POST _analyze
{
"analyzer": "ik_smart",
"text": "我是中国人"
} - 另外一个分词器
ik_max_word1
2
3
4
5POST _analyze
{
"analyzer": "ik_max_word",
"text": "我是中国人"
}观察结果,就可以看出使用分词器之后的区别了
整合SpringBoot
Elasticsearch-Rest-Client
3.Maven导入
1 | <dependency> |
2.配置
1 |
|
3.测试
1 |
|