知识库
- 知识库文件名(不含 “.md” 或 “.docx” 或 “.zip” 后缀)就是知识库的名称
- 知识库可以使用 Word 或 Markdown 格式,下面分别介绍
Word格式知识库
知识库 Word 文件模板
- 使用 知识库空文档.docx(注意下载后一定将文件名命名为 “知识库空文档.docx”)开始创建知识库文档,该文档中预置好了 9 个级别的标题
- 一定是 *.docx 文件
设置层级标题样式
- 将知识库 Word 文件中的标题逐个按层级标题样式进行设置(可通过 Ctrl + 1、2、3、...、8、9 来快速设置标题),即使用层级标题将文档内容进行合适粒度的分割(对于没有正文也没有子标题的标题要加一行仅含一个小数点 “.” 的正文 / 否则该标题将被忽略),没法用标题分割的也尽量分成不同段落,每个段落最好不要超过 500 个汉字
- 原标题上可能会有数字开头(中文数字或阿拉伯数字),设置为标题样式后可能会自动消失,建议按原样手工补上
- QA(问答)类的知识,一般需要把 Q(问题)作为标题,A(回答)作为正文
- 以数字编号(如“1.”、"(1)"、“(一)”、“一、”等)开头的行
- 如果本行内容较少,就设置为标题样式
- 如果本行内容较多,可不设置为标题样式(保持正文样式即可);但如果其还有下层级的带数字编号的行,那就将本行的编号单独设置为标题
- 某些不以数字编号开头的行,但有以标题形式开头的字数较少的词语,也可单独处理为标题
表格的处理
需手工将表格转化为一行一行的描述文本,如下:
表格:新生儿红臀的分度
| 分度 | 临床表现 |
|---|---|
| Ⅰ度 | 局部皮肤潮红伴有少量皮疹,范围小 |
| Ⅱ度 | 皮肤红,范围大,皮疹破溃并伴有脱皮 |
| Ⅲ度 | 皮肤红,范围广,伴皮疹,皮肤发生较大面积的糜烂和表皮剥脱及渗液 |
可转换为:
新生儿红臀的分度是I度时,临床表现是局部皮肤潮红伴有少量皮疹,范围小;
新生儿红臀的分度是II度时,临床表现是皮肤红,范围大,皮疹破溃并伴有脱皮;
新生儿红臀的分度是III度时,临床表现是皮肤红,范围广,伴皮疹,皮肤发生较大面积的糜烂和表皮剥脱及渗液;
其它注意事项
- 有时候设置标题样式时,标题的字体已改变,且左边导航栏中也出现了标题,但上方的样式框中并未选中任何标题样式,此时需要把标题剪切并无格式粘贴出来后,再设置标题,一定确认上方的样式框中选中相关标题样式
- 删除图片(及依附于图片的简短说明 / 有独立意义的说明不用删除)和文本框
- 删除不相关的落款、参考文献、附录等内
Markdown 格式知识库
- Markdown 格式知识库的构建,可以参照 Word 格式知识库的层级标题设置方法,只不过是用 Markdown 的标题语法(“#”表示一级标题、“##” 表示二级标题、“###”表示三级标题、以此类推最多九级标题)来表示层级标题
- Markdown 格式知识库文件,必须是 .md 后缀的文件名,且使用 utf-8 编码的纯文本文件
- 推荐使用 Markdown 格式
用 Zip 打包多个知识库文件
一个对话树中如果需要多个 Word 和/或 Markdown 格式的文档知识库,则需 zip 打包在一起(直接压缩多个 *.docx 和/或 *.md 文件成 1 个 *.zip 文件 | 不要压缩目录 | 每个 *.docx 和/或 *.md 文件都必须有唯一一个涵盖该文件所有内容的一级目录),构成一个知识库,此时知识库的名称就是 zip 文件名
在知识库中定义术语概念
有时需要单独在知识库中对一些零散的术语概念进行澄清,可以定义一个一级目录叫 “术语概念”,然后下面的二级目录名就是某个术语概念,该二级目录下的正文内容可以是对该术语概念进行的解释描述、相关的同义词/近义词以及与其它相关概念的区别等等,如:
# 术语概念
## 人工智能
### 定义
人工智能(Artificial Intelligence,AI)是指由计算机系统执行的通常需要人类智能的任务。它包括机器学习、自然语言处理、计算机视觉等多个领域。
### 同义词/近义词
AI、智能计算
### 与相关概念的区别
人工智能不同于传统的软件编程,后者是基于明确的规则和逻辑,而人工智能则通过数据驱动的方式进行学习和决策。
## 机器学习
### 定义
机器学习(Machine Learning)是人工智能的一个子领域,专注于开发算法,使计算机能够从数据中学习和改进性能,而无需明确编程。
### 同义词/近义词
ML、自适应系统
### 与相关概念的区别
机器学习是实现人工智能的一种方法,但并非所有的人工智能系统都依赖于机器学习。
支持规模
系统支撑过的案例包括 25000 部法规文件(约 200 百万条信息片段)规模的知识库,响应速度依然很快
知识库加载的位置
只有当知识库大小达到有一定程度、且 GPU 剩余显存足够时,系统才会尝试将知识库加载到 GPU(访问速度更快),否则知识库会加载到 CPU(访问速度稍慢),可以通过 nvidia-smi 查看剩余显存多少来观察
相关例子
在 “对话树例子” 中,还有相关 md 格式和 zip 格式的知识库文件例子可以参考