StackSense ← 回到地图
数据与 AI / AI

AI Infra

AI 基础设施关心的是模型怎么真正跑在硬件上:训练怎么把参数、梯度、优化器状态切到多卡多机,推理怎么在 GPU 上把 KV Cache 和调度做得尽量高效,编译器怎么把算子图映射到 CUDA / Tensor Core。掌握这层,才能解释为什么同一个模型跑在不同框架上延迟差几倍,以及成本优化从哪里下手。

AI 基础设施关心的是模型怎么真正跑在硬件上:训练怎么把参数、梯度、优化器状态切到多卡多机,推理怎么在 GPU 上把 KV Cache 和调度做得尽量高效,编译器怎么把算子图映射到 CUDA / Tensor Core。掌握这层,才能解释为什么同一个模型跑在不同框架上延迟差几倍,以及成本优化从哪里下手。

学完后你应该能回答

GPU 基础 & CUDA

  1. CUDA 的 thread / warp / block / grid 是怎么映射到 SM 上的?为什么 block size 一般选 128 或 256 的倍数?
  2. 什么是 memory coalescing?一次 warp 访存不 coalesce 会导致几倍的带宽浪费?
  3. HBM / L2 / SMEM / register 各自的带宽和延迟差多少?常见”算子慢”究竟卡在哪一级?
  4. Roofline 模型里算子是 compute-bound 还是 memory-bound,对 kernel 的优化方向意味着什么?

训练并行

  1. Data / Tensor / Pipeline 三种并行各自切的是什么?训练 70B 模型时为什么必须组合使用而不能只用 DP?
  2. ZeRO 1/2/3 分别把什么切开了?它和 FSDP 的关系是什么?通信量相比普通 DP 增加了多少?
  3. Pipeline parallel 的 bubble 怎么来?1F1B、interleaved 1F1B、zero-bubble 分别怎么压缩 bubble?
  4. Sequence parallel / context parallel 解决了什么 TP 覆盖不到的问题?
  5. overlap compute 和 comm 是怎么做的?NCCL 的 stream 和 buffer 配合起来,哪个算子最常挡在关键路径上?
  6. Gradient checkpointing 用什么换什么?激活重算节省的显存和额外 compute 的比例大概是多少?

推理优化

  1. KV Cache 占显存的公式是什么?为什么长 context 推理时它比参数本身还大?
  2. PagedAttention 解决的是 KV Cache 的什么问题?为什么说它把显存利用率从 20-40% 提升到 90%+?
  3. Continuous batching 和传统 static batching 的区别?为什么它对 LLM 推理吞吐的提升特别大?
  4. FlashAttention 快在哪里?它本质是算法优化还是访存优化?为什么说它不改变 attention 的数学结果?
  5. Prefill 和 decode 阶段的计算模式差别在哪?PD 分离部署能带来多大吞吐提升?
  6. Speculative decoding 的 Medusa / EAGLE / Lookahead 各自怎么生成 draft?加速比受什么限制?
  7. Prefix cache 在多轮对话和 system prompt 共享时能省多少 KV?和 SGLang 的 radix tree 有什么关系?

精度 & 量化

  1. 混合精度训练(fp16 / bf16 / fp8)的数值范围差异?为什么 fp16 需要 loss scaling 而 bf16 通常不用?
  2. INT8 / INT4 / AWQ / GPTQ 几种量化方案的区别?哪些场景精度损失会变得不可接受?
  3. fp8 训练(Hopper E4M3 / E5M2)相比 bf16 省了多少?收敛风险在哪?
  4. KV cache 量化到 INT8 / INT4 对长 context 推理延迟的影响?哪些模型架构更容易掉点?

模型架构 (MoE / GQA)

  1. LoRA / QLoRA 相比全参微调,显存和质量如何权衡?哪些层放 LoRA 性价比最高?
  2. MoE 的 expert parallel 实现里最难的三个问题是什么(routing、all-to-all、load imbalance)?
  3. GQA / MQA 相对 MHA 省了什么?为什么几乎所有新模型都选 GQA?
  4. DeepSeek MoE 的 fine-grained expert + shared expert 相比 Mixtral 的 Top-2 路由有哪些工程差异?
  5. MLA(multi-head latent attention)在 KV cache 压缩上相对 GQA 多走了什么?

指标 & 评估

  1. MFU 和 HFU 的区别?工业级训练的典型水平是多少?
  2. vLLM 的 PagedAttention 为什么能把 KV cache 的显存碎片消掉?它借鉴了操作系统的哪个机制?
  3. 推理 SLO 该怎么分解:TTFT、TPOT、e2e latency 三者在请求分布不均时会矛盾吗?

核心概念

Lab

资料

工具