企业知识库 RAG 实战：从文档到 AI 问答的 5 个关键步骤

"我们公司有几万份 Word/PDF 文档，想做一个 AI 问答助手，新员工有问题直接问就能拿答案，可不可行？"——这是仙宫云客户最高频的需求之一。答案是肯定的，技术路径就是 RAG（Retrieval-Augmented Generation，检索增强生成）。本文拆解从 0 到 1 的 5 个关键步骤。

一、RAG 是什么？为什么不直接微调模型？

RAG 的核心思想：用户提问 → 先从企业文档库检索最相关的几段内容 → 把这些内容作为上下文交给大模型 → 大模型基于上下文生成回答。

对比微调（Fine-tuning），RAG 有三个企业级优势：

维度	RAG	微调
知识更新	改文档即可	需要重新训练
成本	低（无需 GPU 训练）	高（数据 + 算力）
可追溯	答案能引用原文	黑盒输出
数据安全	文档保留在向量库	知识被吸收进权重

结论：90% 的企业知识库场景，用 RAG 比微调更合适。

二、Step 1：文档预处理（最容易被低估的环节）

垃圾进，垃圾出。RAG 效果上限被这一步决定。

2.1 文档收集与格式统一

收集来源：Word、PDF、PPT、Markdown、Confluence、邮件归档
统一转 Markdown 或纯文本，保留标题层级
工具推荐：unstructured、Docling、MinerU（中文 PDF 表现好）

2.2 切片（Chunking）策略

切片大小直接影响检索精度：

太大（>1500 字）：检索粒度粗，无关内容多
太小（<200 字）：上下文不完整，模型无法理解
推荐：500-800 字 + 50-100 字重叠（overlap）

2.3 元数据标注

每个切片附加元数据：来源文档、章节、更新日期、部门、权限等级。这些字段在检索阶段可以做过滤，比如"只查财务部 2025 年之后的制度"。

三、Step 2：向量化与向量数据库

把文本切片转成向量，让"语义相似度"可以被计算。

3.1 中文 Embedding 模型推荐

bge-m3（智源）：多语言、长文本、目前中文综合最佳
text2vec-base-chinese：轻量，适合资源有限场景
OpenAI text-embedding-3-large：闭源但效果稳定（数据出域慎用）

3.2 向量数据库选型

数据库	适用场景
Milvus	大规模（千万级以上向量），生产首选
Qdrant	中小规模，部署简单，过滤能力强
Chroma	POC 验证、小团队
PostgreSQL + pgvector	已有 PG 基础设施，向量量级 100 万以内

四、Step 3：检索策略（决定准确率的关键）

只用向量相似度（dense retrieval）远远不够。生产级 RAG 一定要做 混合检索：

向量检索：找语义相似的切片
关键词检索（BM25）：找精确匹配关键词的切片
重排（Rerank）：用 bge-reranker 等模型对 Top-20 结果重新打分，取 Top-5

加上 Rerank 后准确率通常能再提升 15-25%，是性价比最高的优化点。

五、Step 4：Prompt 设计

RAG 的 Prompt 模板看似简单，细节决定效果：

你是企业知识助手。请严格基于以下"参考资料"回答用户问题。

要求：
1. 答案必须来自参考资料，不要编造
2. 如果资料中没有相关信息，明确说"知识库中暂无相关内容"
3. 回答末尾标注引用的来源文档

参考资料：
{retrieved_chunks}

用户问题：{question}

反幻觉的三个关键约束：

明确"必须基于资料"
给出"无答案"的退出路径
强制引用来源（用户也能验证）

六、Step 5：效果评估与迭代

很多企业上线 RAG 后没有评估机制，导致问题积累、用户流失。建议建立三层评估：

6.1 离线评估

构建 100-500 条测试问答对，定期跑：

召回率：相关切片是否在检索结果 Top-K 中
答案准确率：人工或大模型评分
拒答率：无答案问题是否正确拒答

6.2 在线监控

记录每个问答的：query、检索结果、最终答案、用户反馈（赞/踩）
重点关注被踩的问答，定位是检索失败还是生成失败

6.3 持续优化循环

每周/每月迭代一次：

补充缺失文档
调整切片策略
优化 Prompt
升级 Embedding/Rerank 模型

七、企业 RAG 落地的常见误区

以为上线就完事：RAG 是持续运营产品，不是一次性项目
只用单一检索：纯向量检索准确率上限低
忽略权限控制：财务文档不能让所有员工查到
没做引用展示：用户无法验证答案，信任度低
没建反馈闭环：不知道哪里错、怎么改

八、仙宫云的企业知识库方案

仙宫云提供从大模型私有化部署到 RAG 应用的完整服务：

场景调研：识别哪些文档值得做、用户高频问题摸底
数据治理：文档清洗、敏感信息脱敏、权限分级
技术实施：私有化部署 + Embedding 模型 + 向量库 + 应用界面
持续运营：评估体系建设、效果迭代、新场景扩展

联系我们获取企业知识库免费方案评估。