Skip to content

AI 工程从零开始

Main Navigation 首页开始学习 ← 返回 learn.traeai.com

主题

Sidebar Navigation

00. 环境搭建与工具

开发环境

Git 与协作

GPU 配置与云端

API 与密钥

Jupyter 笔记本

Python 环境

面向 AI 的 Docker

编辑器设置

数据管理

终端与 Shell

AI 工程中的 Linux

调试与性能分析

01. 数学基础

线性代数直觉

向量、矩阵与运算

矩阵变换

机器学习中的微积分

链式法则与自动微分

概率与分布

贝叶斯定理

优化

信息论

降维

奇异值分解

张量运算

数值稳定性

范数与距离

机器学习中的统计学

采样方法

线性方程组

凸优化

面向 AI 的复数

傅里叶变换

面向机器学习的图论

随机过程

02. 机器学习基础

什么是机器学习

线性回归

逻辑回归

决策树与随机森林

支持向量机

K 最近邻与距离

无监督学习

特征工程与特征选择

模型评估

偏差-方差权衡

集成方法

超参数调优

ML 流水线

朴素贝叶斯

时间序列基础

异常检测

处理类别不平衡数据

特征选择

03. 深度学习核心

感知机

多层网络与前向传播

从零实现反向传播

激活函数

损失函数

优化器

正则化

权重初始化与训练稳定性

学习率调度与预热

构建迷你框架

PyTorch 入门

JAX 入门

调试神经网络

04. 计算机视觉

图像基础：像素、通道与色彩空间

从零开始实现卷积

CNN：从 LeNet 到 ResNet

图像分类

迁移学习与微调

目标检测：从零开始实现 YOLO

语义分割：U-Net

实例分割：Mask R-CNN

图像生成：GAN

图像生成：扩散模型

Stable Diffusion：架构与微调

视频理解：时序建模

3D 视觉：点云与 NeRF

视觉 Transformer（ViT）

实时视觉：边缘部署

构建完整视觉流水线：综合实战

自监督视觉：SimCLR、DINO、MAE

开放词汇视觉：CLIP

OCR 与文档理解

图像检索与度量学习

关键点检测与姿态估计

从零开始实现 3D Gaussian Splatting

Diffusion Transformer 与 Rectified Flow

SAM 3 与开放词汇分割

视觉语言模型：ViT-MLP-LLM 模式

单目深度与几何估计

多目标跟踪与视频记忆

世界模型与视频扩散

05. 自然语言处理

文本处理：分词、词干提取与词形还原

词袋模型、TF-IDF 与文本表示

词嵌入：从零开始实现 Word2Vec

GloVe、FastText 与子词嵌入

情感分析

命名实体识别

词性标注与句法解析

用于文本的 CNN 与 RNN

序列到序列模型

注意力机制：关键突破

机器翻译

文本摘要

问答系统

信息检索与搜索

主题建模：LDA 与 BERTopic

Transformer 之前的文本生成：N-gram 语言模型

聊天机器人：从规则到神经网络再到 LLM Agent

多语言 NLP

子词分词：BPE、WordPiece、Unigram、SentencePiece

结构化输出与约束解码

自然语言推理：文本蕴含

嵌入模型：2026 深度解析

RAG 的分块策略

指代消解

实体链接与消歧

关系抽取与知识图谱构建

LLM 评测：RAGAS、DeepEval、G-Eval

长上下文评测：NIAH、RULER、LongBench、MRCR

对话状态跟踪

06. 语音与音频

音频基础：波形、采样与傅里叶变换

频谱图、Mel 尺度与音频特征

音频分类：从基于 MFCC 的 k-NN 到 AST 与 BEATs

语音识别（ASR）：CTC、RNN-T 与注意力机制

Whisper：架构与微调

说话人识别与验证

语音合成（TTS）：从 Tacotron 到 F5 与 Kokoro

语音克隆与语音转换

音乐生成：MusicGen、Stable Audio、Suno 与版权地震

音频语言模型：Qwen2.5-Omni、Audio Flamingo、GPT-4o Audio

实时音频处理

构建语音助手流水线：综合实战

神经音频编解码器：EnCodec、SNAC、Mimi、DAC 与语义-声学分离

语音活动检测与轮次交接：Silero、Cobra 与 Flush Trick

流式语音到语音：Moshi、Hibiki 与全双工对话

语音反欺骗与音频水印：ASVspoof 5、AudioSeal、WaveVerify

音频评测：WER、MOS、UTMOS、MMAU、FAD 与开放榜单

07. Transformer 深入

为什么需要 Transformer：RNN 的问题

从零实现自注意力机制

多头注意力机制

位置编码：Sinusoidal、RoPE 与 ALiBi

完整的 Transformer：编码器 + 解码器

BERT：掩码语言建模

GPT：因果语言建模

T5、BART：编码器-解码器模型

视觉 Transformer（ViT）

音频 Transformer：Whisper 架构

专家混合（MoE）

KV Cache、Flash Attention 与推理优化

规模定律

从零构建 Transformer：综合实践

注意力变体：滑动窗口、稀疏与差分

投机解码：起草、验证、重复

08. 生成式 AI

生成模型：分类与发展历史

自编码器与变分自编码器（VAE）

GAN：生成器与判别器

条件 GAN 与 Pix2Pix

StyleGAN

扩散模型：从零实现 DDPM

潜空间扩散与 Stable Diffusion

ControlNet、LoRA 与条件控制

图像补全、外扩与编辑

视频生成

音频生成

3D 生成

Flow Matching 与 Rectified Flows

评估：FID、CLIP Score 与人类偏好

视觉自回归建模（VAR）：下一尺度预测

09. 强化学习

MDP、状态、动作与奖励

动态规划：策略迭代与价值迭代

蒙特卡洛方法：从完整回合中学习

时序差分：Q-Learning 与 SARSA

深度 Q 网络（DQN）

策略梯度：从零实现 REINFORCE

Actor-Critic：A2C 与 A3C

近端策略优化（PPO）

奖励建模与 RLHF

多智能体强化学习

仿真到现实迁移

游戏中的强化学习：AlphaZero、MuZero 与 LLM 推理时代

10. 从零构建 LLM

分词器：BPE、WordPiece、SentencePiece

从零构建分词器

预训练数据管道

预训练 Mini GPT（124M 参数）

规模化训练：分布式训练、FSDP、DeepSpeed

指令微调（SFT）

RLHF：奖励模型 + PPO

DPO：直接偏好优化

宪法式 AI 与自我改进

评估：基准测试、Evals、LM Harness

量化：让模型装得下

推理优化

构建完整 LLM 流水线

开放模型：架构导读

投机解码与 EAGLE-3

差分注意力机制（V2）

原生稀疏注意力（DeepSeek NSA）

多 Token 预测（MTP）

DualPipe 并行

DeepSeek-V3 架构导读

Jamba：混合 SSM-Transformer

异步与 Hogwild! 推理

投机解码与 EAGLE

梯度检查点与激活重计算

11. LLM 工程

提示工程：技巧与模式

少样本、思维链与思维树

结构化输出：JSON、Schema 校验、约束解码

嵌入与向量表示

上下文工程：窗口、预算、记忆与检索

RAG（检索增强生成）

高级 RAG：分块、重排、混合检索

使用 LoRA 与 QLoRA 微调

函数调用与工具使用

LLM 应用评估与测试

缓存、限流与成本优化

护栏、安全与内容过滤

构建生产级 LLM 应用

模型上下文协议（MCP）

Prompt 缓存与上下文缓存

LangGraph：面向 Agent 的状态机

Agent 框架取舍：LangGraph vs CrewAI vs AutoGen vs Agno

12. 多模态 AI

Vision Transformer 与 Patch-Token 基元

CLIP 与对比式视觉-语言预训练

从 CLIP 到 BLIP-2：作为模态桥梁的 Q-Former

Flamingo 与用于少样本 VLM 的门控交叉注意力

LLaVA 与视觉指令微调

任意分辨率视觉：Patch-n'-Pack 与 NaFlex

开放权重 VLM 配方：真正重要的是什么

LLaVA-OneVision：单图、多图、视频一体化

Qwen-VL 家族与 Dynamic-FPS 视频

InternVL3：原生多模态预训练

Chameleon 与仅 Token 的早期融合多模态模型

Emu3：用于图像与视频生成的下一 Token 预测

Transfusion：单个 Transformer 中的自回归文本 + 扩散图像

Show-o 与离散扩散统一模型

Janus-Pro：统一多模态模型的解耦编码器

MIO 与 Any-to-Any 流式多模态模型

视频语言模型：时序 Token 与 Grounding

百万 Token 上下文下的长视频理解

音频语言模型：从 Whisper 到 Audio Flamingo 3

Omni 模型：Qwen2.5-Omni 与 Thinker-Talker 分离

具身 VLA：RT-2、OpenVLA、π0、GR00T

文档与图表理解

ColPali 与视觉原生文档 RAG

多模态 RAG 与跨模态检索

多模态 Agent 与计算机操作（综合实战）

13. 工具与协议

工具接口：为什么 Agent 需要结构化 I/O

函数调用深入：OpenAI、Anthropic、Gemini

并行工具调用与工具流式处理

结构化输出：JSON Schema、Pydantic、Zod、约束解码

工具 Schema 设计：命名、描述与参数约束

MCP 基础：原语、生命周期与 JSON-RPC 基础

构建 MCP Server：Python + TypeScript SDK

构建 MCP Client：发现、调用与会话管理

MCP 传输：stdio vs Streamable HTTP vs SSE 迁移

MCP Resources 与 Prompts：超越工具的上下文暴露

MCP Sampling：Server 请求的 LLM 补全与 Agent 循环

Roots 与 Elicitation：作用域与中途用户输入

异步任务（SEP-1686）：先调用、后获取的长任务模式

MCP Apps：通过 `ui://` 提供交互式 UI 资源

MCP 安全 I：工具投毒、Rug Pull 与跨 Server 阴影覆盖

MCP 安全 II：OAuth 2.1、资源指示器与增量 Scope

MCP 网关与注册表：企业控制平面

生产级 MCP 认证：DCR、JWKS 轮换与 iii Primitives 上按 Audience 绑定的 Token

A2A：Agent-to-Agent 协议

OpenTelemetry GenAI：端到端追踪工具调用

LLM 路由层：LiteLLM、OpenRouter、Portkey

Skills 与 Agent SDK：Anthropic Skills、AGENTS.md、OpenAI Apps SDK

综合实战：构建完整工具生态

14. Agent 工程

Agent 循环：观察、思考、行动

ReWOO 与 Plan-and-Execute：解耦式规划

Reflexion：语言式强化学习

Tree of Thoughts 与 LATS：审慎搜索

Self-Refine 与 CRITIC：迭代式输出改进

工具使用与函数调用

记忆：虚拟上下文与 MemGPT

记忆块与睡眠期计算（Letta）

混合记忆：向量 + 图 + KV（Mem0）

技能库与终身学习（Voyager）

用 HTN 与进化搜索进行规划

Anthropic 工作流模式：简单胜于复杂

LangGraph：有状态图与持久化执行

AutoGen v0.4：演员模型与智能体框架

CrewAI：基于角色的团队与流程

OpenAI Agents SDK：交接、护栏与追踪

Claude Agent SDK：子智能体与会话存储

Agno 与 Mastra：生产运行时

基准测试：SWE-bench、GAIA、AgentBench

基准测试：WebArena 与 OSWorld

计算机使用：Claude、OpenAI CUA、Gemini

语音智能体：Pipecat 与 LiveKit

OpenTelemetry GenAI 语义约定

智能体可观测性：Langfuse、Phoenix、Opik

多智能体辩论与协作

失效模式：智能体为何失效

提示注入与 PVE 防御

编排模式：监督者、群体式、分层式

生产运行时：队列、事件与 Cron

以评估驱动的智能体开发

智能体工作台工程：为什么强模型仍会失败

最小化智能体工作台

作为可执行约束的智能体指令

仓库记忆与持久状态

面向智能体的初始化脚本

范围契约与任务边界

运行时反馈循环

验证闸门

评审智能体：构建者与评分者分离

多会话交接

真实仓库中的工作台

毕业项目：交付可复用的智能体工作台包

15. 自主系统

从聊天机器人到长程智能体的转变

STaR、V-STaR、Quiet-STaR：自我习得推理

AlphaEvolve：进化式编码智能体

Darwin Godel Machine：开放式自我修改智能体

AI Scientist v2：研讨会级自主研究

自动化对齐研究（Anthropic AAR）

递归自我改进：能力 vs 对齐

有界自我改进设计

自主编码智能体全景（2026）

将 Claude Code 作为自主智能体：权限模式与自动模式

浏览器智能体与长程 Web 任务

长时运行的后台智能体：持久化执行

动作预算、迭代上限与成本治理

熔断开关、断路器与 Canary Tokens

人在回路中：先提议后提交

检查点与回滚

Constitutional AI 与规则覆盖

Llama Guard 与输入/输出分类

Anthropic 负责任扩展政策 v3.0

OpenAI Preparedness Framework 与 DeepMind Frontier Safety Framework

METR 时间跨度与外部能力评估

CAIS、CAISI 与社会规模风险

16. 多 Agent 与集群

为什么要用多智能体？

FIPA-ACL 与言语行为理论的渊源

通信协议

多智能体原语模型

监督者 / 编排者-工作者模式

层级架构及其失效模式

心智社会与多智能体辩论

角色专门化——规划者、批评者、执行者、验证者

并行 / 群体 / 网络化架构

群聊与发言者选择

交接与例程——无状态编排

A2A——智能体到智能体协议

共享记忆与黑板模式

面向智能体的共识与拜占庭容错

投票、自一致性与辩论拓扑

协商与议价

生成式智能体与涌现仿真

心智理论与涌现协同

面向 LLM 的群体优化（PSO、ACO）

MARL——MADDPG、QMIX、MAPPO

智能体经济、代币激励与声誉

生产级扩展——队列、检查点与持久性

失效模式——MAST、群体思维、单一化、级联错误

评测与协同基准

案例研究与 2026 年前沿水平

17. 基础设施与生产

托管式 LLM 平台——Bedrock、Vertex AI、Azure OpenAI

推理平台经济学——Fireworks、Together、Baseten、Modal、Replicate、Anyscale

Kubernetes 上的 GPU 自动扩缩容——Karpenter、KAI Scheduler、Gang Scheduling

vLLM 服务内部原理：PagedAttention、Continuous Batching、Chunked Prefill

生产环境中的 EAGLE-3 推测解码

面向前缀密集型负载的 SGLang 与 RadixAttention

Blackwell 上的 TensorRT-LLM：FP8 与 NVFP4

推理指标——TTFT、TPOT、ITL、Goodput、P99

生产级量化——AWQ、GPTQ、GGUF K-quants、FP8、MXFP4/NVFP4

Serverless LLM 的冷启动缓解

多区域 LLM 服务与 KV Cache 局部性

边缘推理——Apple Neural Engine、Qualcomm Hexagon、WebGPU/WebLLM、Jetson

LLM 可观测性技术栈选型

Prompt 缓存与语义缓存经济学

Batch API——50% 折扣成为行业标准

模型路由作为降本原语

解耦式 Prefill/Decode——NVIDIA Dynamo 与 llm-d

带 LMCache KV 卸载的 vLLM 生产栈

AI 网关——LiteLLM、Portkey、Kong AI Gateway、Bifrost

面向 LLM 的影子流量、金丝雀发布与渐进式部署

LLM 功能的 A/B 测试——GrowthBook、Statsig 与 Vibes 问题

LLM API 压测——为什么 k6 和 Locust 会“说谎”

AI 的 SRE——多智能体故障响应、运行手册与预测式检测

面向 LLM 生产环境的混沌工程

安全——凭据、API Key 轮换、审计日志与护栏

合规——SOC 2、HIPAA、GDPR、PCI-DSS、EU AI Act、ISO 42001

LLM 的 FinOps——单位经济学与多租户归因

自托管服务选型——llama.cpp、Ollama、TGI、vLLM、SGLang

18. 伦理、安全与对齐

指令遵循作为对齐信号

奖励黑客与 Goodhart 定律

直接偏好优化（DPO）家族

谄媚：RLHF 的放大效应

Constitutional AI 与 RLAIF

Mesa 优化与欺骗性对齐

潜伏智能体：持续性欺骗

前沿模型中的上下文内谋划

对齐伪装

AI Control：即使被颠覆也能保持安全

可扩展监督与弱到强泛化

红队演练：PAIR 与自动化攻击

多示例越狱

ASCII Art 与视觉越狱

间接提示注入：生产环境攻击面

红队工具：Garak、Llama Guard、PyRIT

WMDP 与两用能力评估

前沿安全框架：RSP、PF、FSF

Anthropic 的模型福利计划

LLM 中的偏见与表征性伤害

公平性标准：群体、个体、反事实

LLM 的差分隐私

水印技术：SynthID、Stable Signature、C2PA

监管框架：欧盟、美国、英国、韩国

EchoLeak 与 AI 领域 CVE 的出现

模型卡、系统卡与数据集卡

数据溯源与训练数据治理

对齐研究生态：MATS、Redwood、Apollo、METR

内容审核系统：OpenAI、Perspective、Llama Guard

两用风险：网络、生物、化学、核能力增强

19. 毕业项目

毕业项目 01：终端原生编码智能体

毕业项目 02：代码库上的 RAG（跨仓库语义搜索）

毕业项目 03：实时语音助手（ASR→LLM→TTS）

毕业项目 04：多模态文档问答（视觉优先 PDF、表格、图表）

毕业项目 05：自主研究智能体（AI Scientist 类）

毕业项目 06：面向 Kubernetes 的 DevOps 故障排查智能体

毕业项目 07：端到端微调流水线（数据→SFT→DPO→服务）

毕业项目 08：面向受监管垂直领域的生产级 RAG 聊天机器人

毕业项目 09：代码迁移智能体（仓库级语言/运行时升级）

毕业项目 10：多智能体软件工程团队

毕业项目 11：LLM 可观测性与评测仪表盘

毕业项目 12：视频理解流水线（场景、问答、搜索）

毕业项目 13：带注册表与治理的 MCP Server

毕业项目 14：推测解码推理服务

毕业项目 15：宪法式安全护栏 + 红队演练场

毕业项目 16：GitHub Issue 到 PR 的自主智能体

毕业项目 17：个人 AI 导师（自适应、多模态、带记忆）

智能体运行框架循环契约

带 Schema 验证的工具注册表

基于换行分隔 stdio 的 JSON-RPC 2.0

函数调用调度器

计划-执行控制流

毕业项目课 25：验证关卡与观察预算

毕业项目课 26：带拒绝名单与路径隔离的沙箱运行器

毕业项目课 27：带固定任务的评测运行框架

毕业项目课 28：用 OTel GenAI Spans 与 Prometheus 指标实现可观测性

毕业项目课 29：基于运行框架的端到端编码智能体

从零实现 BPE 分词器

滑动窗口分词数据集

词元嵌入与位置嵌入

多头自注意力

从零实现 Transformer 块

GPT 模型组装

训练循环与评估

加载预训练权重

毕业项目课 38：通过头部替换进行分类器微调

毕业项目课 39：通过 SFT 进行指令微调

毕业项目课 40：从零实现 DPO

毕业项目课 41：完整评估流水线

大型语料库下载器

HDF5 分词语料库

带线性预热的余弦学习率

梯度裁剪与混合精度

梯度累积

检查点保存与恢复

从零实现 DDP 与 FSDP

语言模型评测框架

假设生成器

文献检索

实验运行器

结果评估器

论文撰写器

评审循环

迭代调度器

端到端研究演示

目录

Phase 07: Transformer 深入

本阶段包含 16 课时。

原始课程来源：AI Engineering from Scratch (MIT License)

Why Transformers — The Problems with RNNs
Self-Attention from Scratch
Multi-Head Attention
Positional Encoding — Sinusoidal, RoPE, ALiBi
The Full Transformer — Encoder + Decoder
BERT — Masked Language Modeling
GPT — Causal Language Modeling
T5, BART — Encoder-Decoder Models
Vision Transformers (ViT)
Audio Transformers — Whisper Architecture
Mixture of Experts (MoE)
KV Cache, Flash Attention & Inference Optimization
Scaling Laws
Build a Transformer from Scratch — The Capstone
Attention Variants — Sliding Window, Sparse, Differential
Speculative Decoding — Draft, Verify, Repeat

Pager

下一课开发环境

基于 AI Engineering from Scratch (MIT License) 整理

© 2025 learn.traeai.com