RAG入门:检索增强生成实战

大模型很强但有两个硬伤:知识有截止日期、容易编造事实。RAG(Retrieval-Augmented Generation,检索增强生成)是目前最实用的解决方案——先从知识库里检索相关文档,再让模型基于检索结果生成回答。这篇用LangChain从零搭建一个RAG系统。

阅读全文 »

大模型本地部署:llama.cpp实战

想在本地跑大模型但不想装一堆Python依赖和CUDA?llama.cpp是目前最实用的方案——纯C/C++实现的LLM推理引擎,支持CPU推理,量化后在消费级硬件上就能跑。这篇记录从编译安装到实际使用的全过程。

阅读全文 »

Go语言:分布式任务队列Asynq

Go生态里做异步任务队列,之前我一直是自己写goroutine + channel来处理。能跑但不优雅——重试、持久化、监控全得自己搞。后来发现了Asynq这个库,基于Redis的分布式任务队列,API设计很Go风格,用起来很舒服。

阅读全文 »

2023年技术总结:支付、商城与AI

2023年过得真快。年初立的flag完成了一半多一点,另外一半被一个意想不到的东西打乱了节奏——AI大模型的爆发。回顾一下今年做了什么、学了什么、明年打算怎么走。

阅读全文 »