Notes | Guangzheng Li

大模型 LLM 缓存机制：从原理到工程实践

深入解析 LLM 推理中的三层缓存体系：KV Cache 将生成复杂度从 O(n²) 降到 O(n)，Prompt Cache 跨请求复用前缀计算，PagedAttention 借鉴虚拟内存分页消除显存碎片。同时梳理常见的缓存失效错误与工程最佳实践。