document_index_data.go 769 B

123456789101112131415161718192021222324252627
  1. package types
  2. type DocumentIndexData struct {
  3. // 文档全文(必须是UTF-8格式),用于生成待索引的关键词
  4. Content string
  5. // 文档的关键词
  6. // 当Content不为空的时候,优先从Content中分词得到关键词。
  7. // Tokens存在的意义在于绕过悟空内置的分词器,在引擎外部
  8. // 进行分词和预处理。
  9. Tokens []TokenData
  10. // 文档标签(必须是UTF-8格式),比如文档的类别属性等,这些标签并不出现在文档文本中
  11. Labels []string
  12. // 文档的评分字段,可以接纳任何类型的结构体
  13. Fields interface{}
  14. }
  15. // 文档的一个关键词
  16. type TokenData struct {
  17. // 关键词的字符串
  18. Text string
  19. // 关键词的首字节在文档中出现的位置
  20. Locations []int
  21. }