"我们公司有几万份 Word/PDF 文档,想做一个 AI 问答助手,新员工有问题直接问就能拿答案,可不可行?"——这是仙宫云客户最高频的需求之一。答案是肯定的,技术路径就是 RAG(Retrieval-Augmented Generation,检索增强生成)。本文拆解从 0 到 1 的 5 个关键步骤。
一、RAG 是什么?为什么不直接微调模型?
RAG 的核心思想:用户提问 → 先从企业文档库检索最相关的几段内容 → 把这些内容作为上下文交给大模型 → 大模型基于上下文生成回答。
对比微调(Fine-tuning),RAG 有三个企业级优势:
| 维度 | RAG | 微调 |
|---|---|---|
| 知识更新 | 改文档即可 | 需要重新训练 |
| 成本 | 低(无需 GPU 训练) | 高(数据 + 算力) |
| 可追溯 | 答案能引用原文 | 黑盒输出 |
| 数据安全 | 文档保留在向量库 | 知识被吸收进权重 |
结论:90% 的企业知识库场景,用 RAG 比微调更合适。
二、Step 1:文档预处理(最容易被低估的环节)
垃圾进,垃圾出。RAG 效果上限被这一步决定。
2.1 文档收集与格式统一
- 收集来源:Word、PDF、PPT、Markdown、Confluence、邮件归档
- 统一转 Markdown 或纯文本,保留标题层级
- 工具推荐:
unstructured、Docling、MinerU(中文 PDF 表现好)
2.2 切片(Chunking)策略
切片大小直接影响检索精度:
- 太大(>1500 字):检索粒度粗,无关内容多
- 太小(<200 字):上下文不完整,模型无法理解
- 推荐:500-800 字 + 50-100 字重叠(overlap)
2.3 元数据标注
每个切片附加元数据:来源文档、章节、更新日期、部门、权限等级。这些字段在检索阶段可以做过滤,比如"只查财务部 2025 年之后的制度"。
三、Step 2:向量化与向量数据库
把文本切片转成向量,让"语义相似度"可以被计算。
3.1 中文 Embedding 模型推荐
- bge-m3(智源):多语言、长文本、目前中文综合最佳
- text2vec-base-chinese:轻量,适合资源有限场景
- OpenAI text-embedding-3-large:闭源但效果稳定(数据出域慎用)
3.2 向量数据库选型
| 数据库 | 适用场景 |
|---|---|
| Milvus | 大规模(千万级以上向量),生产首选 |
| Qdrant | 中小规模,部署简单,过滤能力强 |
| Chroma | POC 验证、小团队 |
| PostgreSQL + pgvector | 已有 PG 基础设施,向量量级 100 万以内 |
四、Step 3:检索策略(决定准确率的关键)
只用向量相似度(dense retrieval)远远不够。生产级 RAG 一定要做 混合检索:
- 向量检索:找语义相似的切片
- 关键词检索(BM25):找精确匹配关键词的切片
- 重排(Rerank):用 bge-reranker 等模型对 Top-20 结果重新打分,取 Top-5
加上 Rerank 后准确率通常能再提升 15-25%,是性价比最高的优化点。
五、Step 4:Prompt 设计
RAG 的 Prompt 模板看似简单,细节决定效果:
你是企业知识助手。请严格基于以下"参考资料"回答用户问题。
要求:
1. 答案必须来自参考资料,不要编造
2. 如果资料中没有相关信息,明确说"知识库中暂无相关内容"
3. 回答末尾标注引用的来源文档
参考资料:
{retrieved_chunks}
用户问题:{question}
反幻觉的三个关键约束:
- 明确"必须基于资料"
- 给出"无答案"的退出路径
- 强制引用来源(用户也能验证)
六、Step 5:效果评估与迭代
很多企业上线 RAG 后没有评估机制,导致问题积累、用户流失。建议建立三层评估:
6.1 离线评估
构建 100-500 条测试问答对,定期跑:
- 召回率:相关切片是否在检索结果 Top-K 中
- 答案准确率:人工或大模型评分
- 拒答率:无答案问题是否正确拒答
6.2 在线监控
- 记录每个问答的:query、检索结果、最终答案、用户反馈(赞/踩)
- 重点关注被踩的问答,定位是检索失败还是生成失败
6.3 持续优化循环
每周/每月迭代一次:
- 补充缺失文档
- 调整切片策略
- 优化 Prompt
- 升级 Embedding/Rerank 模型
七、企业 RAG 落地的常见误区
- 以为上线就完事:RAG 是持续运营产品,不是一次性项目
- 只用单一检索:纯向量检索准确率上限低
- 忽略权限控制:财务文档不能让所有员工查到
- 没做引用展示:用户无法验证答案,信任度低
- 没建反馈闭环:不知道哪里错、怎么改
八、仙宫云的企业知识库方案
仙宫云提供从大模型私有化部署到 RAG 应用的完整服务:
- 场景调研:识别哪些文档值得做、用户高频问题摸底
- 数据治理:文档清洗、敏感信息脱敏、权限分级
- 技术实施:私有化部署 + Embedding 模型 + 向量库 + 应用界面
- 持续运营:评估体系建设、效果迭代、新场景扩展
联系我们获取企业知识库免费方案评估。