倒排索引
# 一、倒排索引概述
传统索引结构如下:
id | content |
---|---|
1001 | My name is wxx |
1002 | My name is dyl |
倒排索引结构如下:
keyword | id |
---|---|
name | 1001,1002 |
Wax | 1001 |
- 对于传统索引,就类似于书籍的目录页一样,我们根据对应的编号找到对应的内容。
- 对于倒排索引,就类似于书籍最后的索引页一样,我们根据对应的关键词找到对应的内容。
# 二、倒排索引组成
倒排索引包括两个部分:
- 单词词典:记录所有文档的单词,记录单词到倒排列表的关联关系。
- 单词词典,一般比较大,可以通过B+树和哈希拉链法来满足查询和插入的需求。
- 倒排列表:记录单词对应的文档集合
- 文档id:文档的编号。
- 词频率(TF):该单词出现的次数。
- 位置(Position):单词在文档中分词的位置。
- 偏移(Offset):记录单词的开始结束位置。
# 参考
上次更新: 2024/06/29, 15:13:44