elasticsearch-Analyzer分词

Dcr 1年前 ⋅ 807 阅读

Analysis与Analyzer

Analysis文本分析是把全文本转换一系列单词(term/token)的过程,也叫分词

Analysis 是通过Analyzer来实现的,可使用elasticsearch内置的分析器/或者按需定制分析器

Analyzer的组成

1.character filters:针对原始文本做处理.例如html 标签剥离

2.tokenizer:按照一定的规则,把输入的字符串做切分

3.token filters:切分后的单词,做二次处理

Elasticesearch的内置分词器

Standard Analyzer - 默认分词器,按词切分,小写处理.

Simple Analyzer - 按照非字母切分(符号被过滤), 小写处理.

Stop Analyzer - 小写处理,停用词过滤(the, a, is)

Whitespace Analyzer - 按照空格切分, 不转小写

Keyword Analyzer - 不分词,直接将输入当作输出

Patter Analyzer - 正则表达式,默认\W+(非字符分隔)

Language - 提供了30多种常见语言的分词器

Customer Analyzer 自定义分词器

 

全部评论: 0

    我有话说: