跳到主要内容

知识库

  • 知识库文件名(不含 “.md” 或 “.docx” 或 “.zip” 后缀)就是知识库的名称
  • 知识库可以使用 Word 或 Markdown 格式,下面分别介绍

Word格式知识库

知识库 Word 文件模板

  • 使用 知识库空文档.docx(注意下载后一定将文件名命名为 “知识库空文档.docx”)开始创建知识库文档,该文档中预置好了 9 个级别的标题
  • 一定是 *.docx 文件

设置层级标题样式

  • 将知识库 Word 文件中的标题逐个按层级标题样式进行设置(可通过 Ctrl + 1、2、3、...、8、9 来快速设置标题),即使用层级标题将文档内容进行合适粒度的分割(对于没有正文也没有子标题的标题要加一行仅含一个小数点 “.” 的正文 / 否则该标题将被忽略),没法用标题分割的也尽量分成不同段落,每个段落最好不要超过 500 个汉字
  • 原标题上可能会有数字开头(中文数字或阿拉伯数字),设置为标题样式后可能会自动消失,建议按原样手工补上
  • QA(问答)类的知识,一般需要把 Q(问题)作为标题,A(回答)作为正文
  • 以数字编号(如“1.”、"(1)"、“(一)”、“一、”等)开头的行
    • 如果本行内容较少,就设置为标题样式
    • 如果本行内容较多,可不设置为标题样式(保持正文样式即可);但如果其还有下层级的带数字编号的行,那就将本行的编号单独设置为标题
  • 某些不以数字编号开头的行,但有以标题形式开头的字数较少的词语,也可单独处理为标题

表格的处理

需手工将表格转化为一行一行的描述文本,如下:

表格:新生儿红臀的分度

分度临床表现
Ⅰ度局部皮肤潮红伴有少量皮疹,范围小
Ⅱ度皮肤红,范围大,皮疹破溃并伴有脱皮
Ⅲ度皮肤红,范围广,伴皮疹,皮肤发生较大面积的糜烂和表皮剥脱及渗液

可转换为:

新生儿红臀的分度是I度时,临床表现是局部皮肤潮红伴有少量皮疹,范围小;
新生儿红臀的分度是II度时,临床表现是皮肤红,范围大,皮疹破溃并伴有脱皮;
新生儿红臀的分度是III度时,临床表现是皮肤红,范围广,伴皮疹,皮肤发生较大面积的糜烂和表皮剥脱及渗液;

其它注意事项

  • 有时候设置标题样式时,标题的字体已改变,且左边导航栏中也出现了标题,但上方的样式框中并未选中任何标题样式,此时需要把标题剪切并无格式粘贴出来后,再设置标题,一定确认上方的样式框中选中相关标题样式
  • 删除图片(及依附于图片的简短说明 / 有独立意义的说明不用删除)和文本框
  • 删除不相关的落款、参考文献、附录等内

Markdown 格式知识库

  • Markdown 格式知识库的构建,可以参照 Word 格式知识库的层级标题设置方法,只不过是用 Markdown 的标题语法(“#”表示一级标题、“##” 表示二级标题、“###”表示三级标题、以此类推最多九级标题)来表示层级标题
  • Markdown 格式知识库文件,必须是 .md 后缀的文件名,且使用 utf-8 编码的纯文本文件
  • 推荐使用 Markdown 格式

用 Zip 打包多个知识库文件

一个对话树中如果需要多个 Word 和/或 Markdown 格式的文档知识库,则需 zip 打包在一起(直接压缩多个 *.docx 和/或 *.md 文件成 1 个 *.zip 文件 | 不要压缩目录 | 每个 *.docx 和/或 *.md 文件都必须有唯一一个涵盖该文件所有内容的一级目录),构成一个知识库,此时知识库的名称就是 zip 文件名

在知识库中定义术语概念

有时需要单独在知识库中对一些零散的术语概念进行澄清,可以定义一个一级目录叫 “术语概念”,然后下面的二级目录名就是某个术语概念,该二级目录下的正文内容可以是对该术语概念进行的解释描述、相关的同义词/近义词以及与其它相关概念的区别等等,如:

# 术语概念
## 人工智能
### 定义
人工智能(Artificial Intelligence,AI)是指由计算机系统执行的通常需要人类智能的任务。它包括机器学习、自然语言处理、计算机视觉等多个领域。
### 同义词/近义词
AI、智能计算
### 与相关概念的区别
人工智能不同于传统的软件编程,后者是基于明确的规则和逻辑,而人工智能则通过数据驱动的方式进行学习和决策。
## 机器学习
### 定义
机器学习(Machine Learning)是人工智能的一个子领域,专注于开发算法,使计算机能够从数据中学习和改进性能,而无需明确编程。
### 同义词/近义词
ML、自适应系统
### 与相关概念的区别
机器学习是实现人工智能的一种方法,但并非所有的人工智能系统都依赖于机器学习。

支持规模

系统支撑过的案例包括 25000 部法规文件(约 200 百万条信息片段)规模的知识库,响应速度依然很快

知识库加载的位置

只有当知识库大小达到有一定程度、且 GPU 剩余显存足够时,系统才会尝试将知识库加载到 GPU(访问速度更快),否则知识库会加载到 CPU(访问速度稍慢),可以通过 nvidia-smi 查看剩余显存多少来观察

相关例子

“对话树例子” 中,还有相关 md 格式和 zip 格式的知识库文件例子可以参考