第一部分:从零学习搭建大模型
1.1 入门级:理解核心原理
Andrej Karpathy
Python
入门
一个微型的标量值自动求导引擎,以及基于它构建的微型神经网络库。整个项目的核心代码不到 200 行,是理解反向传播和自动微分的最佳起点。
为什么推荐:Karpathy 的代码以极致简洁著称。读完 micrograd,你会彻底理解「训练神经网络」到底在做什么——前向传播计算输出,反向传播计算梯度,梯度下降更新参数。这三个概念是所有深度学习(包括 LLM)的基石。
- 理解计算图(Computation Graph)
- 手动实现反向传播(Backpropagation)
- 理解 PyTorch / TensorFlow 的底层原理
Andrej Karpathy
Python
初级
Karpathy 著名的 4 小时 YouTube 课程「Let's Build GPT from Scratch」的配套代码。从零开始逐行编写 GPT 模型,最终生成类似莎士比亚风格的文本。
为什么推荐:目前互联网上最受欢迎的「从零写 GPT」教程。Karpathy 会解释每一步的设计动机,而不是简单地让你抄代码。配合视频食用效果最佳。
- 理解 Tokenization(分词)
- 理解 Self-Attention 与 Multi-Head Attention
- 理解 Transformer Block 的完整结构
- 理解生成式模型的采样策略(Temperature、Top-K、Top-P)
Andrej Karpathy
Python
初级
「最简单、最快速的 GPT 训练/微调仓库」。nanoGPT 是 build-nanogpt 的工程化版本,代码结构清晰,核心约 300 行,覆盖数据加载、模型定义、训练循环、评估、推理全流程。
为什么推荐:nanoGPT 是学习 LLM 训练的黄金标准入口。很多后续项目(minimind 等)都受其启发。你可以在自己的 GPU 上训练一个能生成合理文本的小型 GPT。
- 完整的 LLM 训练流程
- 理解训练参数(batch size、learning rate、gradient accumulation)
- GPU 内存管理和混合精度训练
jingyaogong
Python
中文友好
初级
「2 小时从 0 训练 64M 参数的小 LLM」——中文社区最受欢迎的 LLM 入门项目。极简实现 Pretraining → SFT → DPO/RLHF 的完整流程,可在消费级 GPU 上跑通。
为什么推荐:中文用户学习 LLM 的最佳入口。文档全中文,代码注释详尽,数据处理针对中文语料优化。在 Colab 免费版上即可跑完全流程,真正建立起「训练大模型」的体感。
- 预训练(Pretraining)完整流程
- SFT 数据准备和训练
- RLHF/DPO 基本原理
- 中文语料处理和 Tokenization
KellerJordan
Python
中级
nanoGPT 的魔改加速版——124M 参数的 GPT 只需 90 秒完成训练(8×H100),展示现代 LLM 训练中各种加速技巧的极致应用。
为什么推荐:当你理解了基础版本后,这个项目告诉你「如何让训练快 100 倍」。引入混合精度训练、Flash Attention、Fused AdamW、torch.compile 等现代技巧,是「从玩具到工业级」的关键桥梁。
- 混合精度训练(bfloat16 / float16)
- Flash Attention 加速原理
- Fused AdamW 优化器
- torch.compile 使用
1.2 进阶级:动手实践
Sebastian Raschka
Jupyter Notebook
中级
GitHub 上最受欢迎的 LLM 学习项目,配套 O'Reilly 畅销书。通过精心设计的 Jupyter Notebook 逐步实现 GPT 类模型的每一个组件。7 章覆盖:LLM 概述 → 文本处理 → Attention 机制 → GPT 实现 → 预训练 → 微调 → RLHF。
为什么推荐:这是目前最系统、最完整的「从零学 LLM」资源。Raschka 是顶级 AI 教育者,讲解严谨而不失可读。有中文翻译版(见下方 datawhalechina 项目)。
- LLM 完整生命周期的系统理解
- 每一步都有对应的 Notebook 实操
- 从理论到代码的无缝衔接
Datawhale
Jupyter Notebook
中文
中级
Raschka《Build an LLM from Scratch》的中文社区翻译版,由国内知名开源学习社区 Datawhale 维护。补充了大量中文语境下的注释和扩展材料。
为什么推荐:中文读者的不二之选。Datawhale 是国内最好的 AI 开源学习社区之一,翻译质量有保障,社群活跃,遇到问题可以及时交流。
- 与英文原版完全同步的知识体系
- 中文语境下的补充解释
- 活跃的中文学习社群支持
Lightning AI
Python
中高级
20+ 高性能 LLM 实现 + 预训练/微调/部署配方。工业级 LLM 训练框架,支持 Llama 2/3、Mistral、Gemma、Falcon、Phi 等几乎所有主流开源模型。
为什么推荐:从「玩具级别」进入「实战级别」的最佳选择。在真实模型架构上实验,同时保持代码可读性。支持 LoRA、QLoRA、全参数微调、量化部署等完整功能。
- 20+ 主流模型架构对比学习
- 多种微调策略(LoRA / QLoRA / 全参数)
- 模型量化和分布式训练
George Hotz (geohot)
Python
中高级
从零实现的深度学习框架,在极简代码量下实现完整的神经网络训练和推理。介于 PyTorch 和 micrograd 之间——比 PyTorch 简单得多,但比 micrograd 强大得多。
为什么推荐:tinygrad 让你理解「PyTorch 底层到底在做什么」。通过阅读源码深入理解张量运算、计算图构建优化、算子融合、多后端支持、JIT 编译等框架核心概念。
- 张量运算的底层实现
- 计算图构建和优化
- 算子融合(Operator Fusion)
- 多后端支持(GPU / CPU / Metal / CUDA)
hyunwoongko
Python
中级
纯 PyTorch 实现的 Transformer——「Attention Is All You Need」论文的最简洁复现。代码极其干净,注释详尽。
为什么推荐:在深入 GPT 类 Decoder-only 架构之前,理解完整的 Encoder-Decoder Transformer 非常重要。这个项目帮你建立对 Transformer 的完整认知。
- Encoder-Decoder 架构
- Self-Attention vs Cross-Attention
- Positional Encoding(位置编码)
- Layer Normalization 与 Residual Connection
1.3 高级 / 生产级:训练与微调
hiyouga
Python
ACL 2024
中级
LLM 微调的终极框架——支持 100+ 种模型的统一高效微调,提供 Web UI 操作界面。当前最流行的 LLM 微调工具,已被大量学术论文和企业项目采用。
为什么推荐:将 LLM 微调的门槛降到最低。Web UI 中配置参数即可完成微调,同时支持命令行精细化控制。支持 Full Fine-tuning、Freeze、LoRA、QLoRA、增量预训练、指令微调、RLHF/DPO 全流程。
- 100+ 模型统一微调接口
- Web UI 可视化操作
- 导出为 Ollama / llama.cpp 格式
Unsloth AI
Python
中级
微调加速 2-5 倍,显存减半——通过手写 CUDA 内核和 Triton 算子大幅优化 LoRA/QLoRA 微调的速度和显存占用。与 HuggingFace 生态完全兼容,改 2 行代码即可加速。
为什么推荐:如果只有一张消费级显卡(RTX 3090/4090),Unsloth 让你能微调原本跑不动的模型。内置 250+ 微调 Notebook 示例,开箱即用。
- 2-5× 微调加速
- 50-80% 显存节省
- 手写优化 CUDA 内核
- 250+ 内置 Notebook 示例
1.4 推理与部署
GGML Org
C/C++
中高级
纯 C/C++ LLM 推理引擎,无需任何 Python 依赖。Ollama、LM Studio 等热门工具都基于它构建。包含模型量化(2-bit 到 8-bit)、KV Cache 管理、内存优化等核心实践。
为什么推荐:阅读源码是理解「LLM 推理底层」的最佳方式。包含 GGUF 格式、KV Cache、自回归推理流程、CPU 高性能矩阵运算等核心概念。
- 模型量化原理(GGUF 格式)
- KV Cache 核心概念
- 自回归推理底层流程
- 内存映射(mmap)在推理中的应用
Ollama
Go
使用简单
「Docker for LLMs」——一条命令在本地运行各种开源大模型。封装了 llama.cpp 的复杂性,提供友好的 CLI 和 REST API。
为什么推荐:作为学习者,需要方便的方式实验不同模型。Ollama 让你轻松在本地试玩 Llama、Qwen、DeepSeek、Mistral 等模型,快速建立对模型能力和差异的认知。
- 一键拉取和运行模型
- 模型管理和版本控制
- 兼容 OpenAI 格式的 REST API
- Modelfile 模型定制
1.5 推荐学习路径
大模型学习路径(8 周)
micrograd→
build-nanogpt→
nanoGPT→
minimind→
LLMs-from-scratch→
litgpt→
LlamaFactory→
llama.cpp
第1-2周:理解反向传播 + GPT 架构 |
第3-4周:完整训练流程实操 |
第5-6周:系统化深入学习 |
第7-8周:工业级实践 |
持续:推理底层
第二部分:学习搭建 AI Agent
2.1 入门级:理解 Agent 概念
Agent 的本质 =
LLM
+
工具调用
+
记忆
+
规划
HuggingFace
Python
入门
HuggingFace 官方免费 AI Agent 课程。从基本概念到 Tool Use、Memory、Planning、Multi-Agent 等核心主题。理论清晰,代码可直接运行。
为什么推荐:学习 Agent 的最佳起点。HuggingFace 课程质量极高,且完全免费。6 章覆盖 Agent 全部核心概念。
- Agent 概述与核心概念
- 工具与动作(Tools & Actions)
- 记忆系统(Memory Systems)
- 规划与推理(Planning & Reasoning)
- 多智能体系统(Multi-Agent)
- Agent 评测(Evaluation)
HuggingFace
Python
入门
「极简 Agent 库——agents that think in code」。核心理念是让 Agent 通过写代码来执行动作,而非 JSON 格式的 function call。代码量极低但功能完整。
为什么推荐:一个下午就能通读全部源码,彻底理解 Agent 内部如何工作。Code Agent 的设计理念让你用代码而非 JSON 表达动作,更直观。
- Code Agent 设计理念
- Tool Use 定义和调用
- 短期和长期记忆管理
- Multi-Agent 编排
Nir Diamant
Python
入门
50+ 生成式 AI Agent 教程和完整实现——从最简单的对话机器人到复杂的多 Agent 协作系统,每个案例都有完整代码。
为什么推荐:练习 Agent 开发的「最佳习题集」。涵盖基础聊天 Agent、RAG Agent、Tool Use Agent、Planning Agent、Reflection Agent、Multi-Agent Collaboration 等全部模式。
- 各种 Agent 模式的完整实现
- 独立的教程可灵活按需学习
- 从简单到复杂的渐进式实践
2.2 进阶级:主流框架
LangChain AI
TypeScript / Python
中级
Agent 开发的事实标准——最流行的 LLM 应用开发框架,拥有最丰富的生态:200+ 集成、海量教程和模板、活跃的社区。
为什么推荐:市场上大量 Agent 应用都用 LangChain 构建,学会它意味着你能理解和修改大量现有项目。建议先学 Agent 和 Tools 部分,理解核心概念后再深入。
- Model I/O(模型输入输出)
- Retrieval(RAG 核心)
- Agents 循环和 Chains 链式调用
- Memory 管理和 Callbacks 回调
LangChain AI
TypeScript / Python
中高级
「用图来构建可控的 Agent」——将 Agent 决策流程建模为状态图(StateGraph),节点代表动作,边代表状态转移。比传统 ReAct Loop 更灵活、更可控。
为什么推荐:目前最值得深入学习的 Agent 框架。图结构天然适合表达复杂多步骤 Agent 逻辑,支持分支、循环、条件路由、人工审批、检查点恢复等高级控制流。
- StateGraph 状态图设计
- Node(动作节点)和 Edge(流程转移)
- Conditional Edge 分支逻辑
- Checkpointing 暂停和恢复
- Human-in-the-Loop 人工审批
OpenAI
Python
中级
OpenAI 官方 Agent SDK——轻量级但功能强大的多 Agent 工作流框架。Agent = instructions + tools + handoffs,设计理念清晰。
为什么推荐:最「官方」的 Agent 实现方式,代码质量极高。如果你的应用主要使用 OpenAI 模型,这是最佳选择。Handoff、Guardrails、Tracing 等特性开箱即用。
- Agent 三要素:指令 + 工具 + 交接
- Handoff(Agent 间控制权交接)
- Guardrails(输入/输出安全检查)
- Tracing(完整执行链路追踪)
CrewAI
Python
中级
「角色扮演式多 Agent 协作框架」——定义 Agent 的角色(Role)、目标(Goal)、背景故事(Backstory),让多个 Agent 像团队一样协作完成复杂任务。
为什么推荐:理念非常直观——像组建人类团队一样组建 Agent 团队。特别适合构建需要多视角、多步骤的复杂任务,如内容创作(研究员→写手→审核)。
- Agent 角色、目标、背景故事定义
- Task 分配和 Crew 团队编排
- 顺序(sequential)和层级(hierarchical)执行
Significant Gravitas
Python
中高级
自主 Agent 鼻祖——2023 年引爆 AI Agent 热潮的项目,GitHub 历史上增长最快的开源项目之一。让 LLM 在「设定目标 → 制定计划 → 执行 → 评估 → 调整」的循环中自主运作。
为什么推荐:作为学习 Agent 架构设计的项目非常有价值。完整实现了自主 Agent 的所有核心组件:规划器、执行器、记忆系统、工具管理、反馈循环。
- Prompt Strategy 提示策略设计
- Command System 命令系统
- Memory Management 记忆管理
- 自主 Agent 的完整架构模式
2.3 高级 / 生产级:企业级应用
LangGenius
TypeScript / Python
使用简单 · 二次开发高级
当前最火的 AI Agent 工作流平台——可视化拖拽编排 LLM、知识库、工具、API,构建复杂 Agent 应用。非技术用户的首选、开发者的原型利器。
为什么推荐:无需深入代码即可搭建功能完整的 Agent 应用。可视化工作流、知识库(RAG)、工具集成、API 发布、100+ 模型支持——是理解「生产级 Agent 系统由哪些组件构成」的最佳案例。
- 可视化工作流编排(拖拽式)
- 知识库 RAG(文档→向量化→检索)
- Agent 模式:ReAct、Function Calling
- 一键发布 REST API
- 完整日志与成本监控
ByteDance 字节跳动
TypeScript
高级
字节跳动开源的「长周期 SuperAgent」框架——处理需数分钟到数小时的复杂任务。配备规划工具、沙箱执行、记忆系统、子 Agent 生成等生产级能力。
为什么推荐:目前最接近真实生产级 Agent 系统的开源项目。代表了大型科技公司对 Agent 的技术理解。适合有经验、想了解「真正的 SuperAgent 是如何设计的」的开发者。
- Planning Tool(大任务→子任务分解)
- Sandbox 安全代码执行
- Memory 跨会话记忆
- Subagent Spawning(子 Agent 动态生成)
Pydantic Team
Python
中级
「Pydantic 风格的 Agent 框架」——以类型安全为核心设计理念,利用 Pydantic 的数据验证和序列化能力,构建结构化、可测试、可维护的 Agent 应用。
为什么推荐:后端开发者的最爱。用类型系统约束 Agent 输入输出,让 Agent 行为可预测、可测试。代码质量极高,是学习「如何优雅地构建 Agent 框架」的绝佳案例。
- 类型安全的 Tool 定义和调用
- 结构化输出(Structured Output)
- 依赖注入系统
- 完整的类型提示
2.4 综合资源合集
AI Agent 领域最大的资源合集,涵盖框架、工具、平台、论文、教程等各类资源,持续更新。
2026 年最新 Agent 资源合集,300+ 资源、20+ 类别、每月更新。
主流 Agent 框架实战对比,从基础到生产级,帮你选择最合适的框架。
中文 Agent 开发完全指南,LangGraph 实战 + 高级 RAG + 面试题库。
2.5 推荐学习路径
Agent 学习路径(8 周)
agents-course→
smolagents→
GenAI_Agents→
langgraph→
crewAI→
deepagents→
dify
第1-2周:建立理论基础 |
第3-4周:源码理解 + 动手实践 |
第5-6周:掌握图状态机 Agent |
第7-8周:多 Agent 协作 + 生产部署 |
持续:SuperAgent 架构
第三部分:综合建议
两条路同时走的综合学习计划
Phase 1:快速建立全局认知(2 周)
| 周次 | LLM 方向 | Agent 方向 |
| 第 1 周 | micrograd → build-nanogpt 视频 | HuggingFace Agents Course(第 1-3 章) |
| 第 2 周 | nanoGPT 代码精读 + 本地训练 | HuggingFace Agents Course(第 4-6 章) |
目标:理解 LLM 核心原理(Attention + Transformer),同时建立 Agent 全局认知。
Phase 2:动手实践加深理解(3 周)
| 周次 | LLM 方向 | Agent 方向 |
| 第 3 周 | minimind 完整流程(预训练→SFT→DPO) | smolagents 源码精读 |
| 第 4 周 | LLMs-from-scratch(第 1-4 章) | GenAI_Agents(选 5-10 个案例实践) |
| 第 5 周 | LLMs-from-scratch(第 5-7 章) | LangGraph 入门(构建第一个 Graph Agent) |
目标:跑通 LLM 训练全流程,能独立构建简单 Agent 系统。
Phase 3:工业级进阶(3 周)
| 周次 | LLM 方向 | Agent 方向 |
| 第 6 周 | litgpt 深入研究多模型架构 | LangGraph 进阶(Subgraphs + Checkpointing) |
| 第 7 周 | LlamaFactory + Unsloth 微调实战 | crewAI 多 Agent 协作 |
| 第 8 周 | 用微调好的模型 + Ollama 部署 | Dify 搭建完整 Agent 应用(接入自己的模型) |
目标:拥有自己微调的模型,并搭建接入自己模型的 Agent 应用。
Phase 4:持续深造
- LLM 方向:阅读 llama.cpp 源码理解推理底层,尝试 tinygrad 理解框架设计
- Agent 方向:研究 deer-flow 理解 SuperAgent 架构,学习 pydantic-ai 提升代码质量
硬件建议
| 学习阶段 | 最低配置 | 推荐配置 |
| micrograd / nanoGPT | CPU 即可 | 任意 GPU |
| minimind(64M) | Google Colab 免费版(T4) | RTX 3060+ |
| LLMs-from-scratch | Google Colab 免费版 | RTX 3060+ |
| LlamaFactory 微调(7B+LoRA) | RTX 3090/4090 24GB | A100 40GB |
| Agent 框架学习 | CPU 即可(调用 API) | 任意配置 |
省钱技巧:LLM 训练可用 Google Colab(免费 T4 GPU)或 AutoDL(国内便宜租 GPU);Agent 框架学习完全不需要 GPU(调用云端 API 即可)。
核心原则
- 先理解原理,再追求规模——用 nanoGPT / minimind 理解 100M 参数模型的每一个细节,比直接跑 7B 模型收益大得多
- 先调 API,再训模型——Agent 学习用 API 即可,不要上来就想微调模型做 Agent(那是两个独立的复杂问题)
- 读源码比读文档更重要——这些精选项目都以代码简洁著称,每个都值得花时间精读源码
- 记录学习笔记——建议 fork 这些项目并在上面写注释,把理解沉淀下来
1,300,000+
本文档涵盖项目的 GitHub Stars 总和