这门课不教「什么是 RAG」。它解决一个更现实的问题——为什么你的 Demo 看起来能跑,真实用户一问就翻车,以及如何用评测把它修到能上线。
naive RAG 在演示里总是体面的。问题出现在它面对真实用户的那一刻——而这正是大多数 RAG 课程戛然而止的地方。
出路不是「再调调 prompt」,而是 用评测把它修到能上线——
可评测、可调优、可上线、可解释成本。
ingestion、chunking、embedding、hybrid retrieval、rerank、answer generation、citation、eval、monitoring 完整链路,按模块分支逐步演进——每一章都有可运行代码。
不只讲「效果好不好」,而是用 Recall@K、MRR、nDCG、Faithfulness、Answer Relevance、Context Precision 量化每一次改动。
从切分失败、召回失败、重排失败、引用错误、上下文污染、成本爆炸入手,教你定位问题,而不是只看成功 Demo。
讲清每个 query 的成本构成,用缓存、模型分层、batch、rerank 策略和上下文压缩把系统优化到真正可用。
视觉 RAG、GraphRAG、代码图谱、Agentic RAG 作为高级增强,不喧宾夺主——重点讲什么时候值得上、怎么接主线、如何评测是否真有提升。
课程分三层。一条必学主线撑起生产级能力,增强模块按需取用,Bonus 拓展视野——主次分明,不堆料。
目标:做出一个可评测、可上线的 RAG 系统
解决复杂场景,不是默认全上
商业差异化与选型决策
从文档解析到上线监控,每个模块都有明确产出物。点击展开任意模块查看小节。
覆盖全链路、可运行、可部署。
一套可自动跑评测、出对比报告的 eval harness。
标准答案、相关文档、相关 chunk、评分维度齐备。
从解析到监控逐项排查的工程清单。
量化每一次架构改动的收益。
可写进简历、作品集,面试能讲清楚。
把 RAG 从 Demo
修到 生产可用
从文档解析、混合检索、重排、引用溯源,到评测驱动、成本优化和上线监控,最终交付一个可复现、可评测、可写进简历的生产级 RAG 项目。