MoE 的中国解法：以 3B 参数挑战 80B 性能

引言：当中国团队突破 MoE 的思维定式

读完这篇关于美团 LongCat 团队开源 LongCat-Flash-Lite 模型的详细介绍，我感受到一种前所未有的振奋。文章指出，该模型采用”非典型 MoE”设计，将近一半参数（31.4B）分配给 N-gram 嵌入层，实现了以 3B 级激活参数达到 80B 级性能的效果。

这不是简单的参数优化，而是对 MoE 架构的根本性创新。中国团队用实践证明：突破思维定式，才能实现真正的技术创新。

非典型 MoE 设计：打破传统架构

文章详细介绍了 LongCat-Flash-Lite 的”非典型 MoE”设计。这个设计让我对 MoE 架构有了新的认识。

传统 MoE 设计：

专家网络：多个专家网络，每个专家负责不同的任务
门控网络：选择最合适的专家处理输入
参数分配：参数主要分配给专家网络

非典型 MoE 设计：

N-gram 嵌入层：将近一半参数（31.4B）分配给 N-gram 嵌入层
专家网络：剩余参数分配给专家网络
参数分配：参数主要分配给嵌入层

这种设计的核心思想是：将更多的参数分配给嵌入层，提升模型的语言理解能力，而不是简单增加专家数量。

这让我想到一个问题：为什么传统 MoE 将参数主要分配给专家网络？因为专家网络是 MoE 的核心，但这可能是一个思维定式。LongCat-Flash-Lite 的创新在于：打破这个思维定式，将参数分配给嵌入层。

N-gram Embedding：语言理解的新维度

文章重点介绍了 N-gram Embedding 的作用。这让我对语言模型的语言理解能力有了新的认识。

N-gram Embedding 的原理：

N-gram：连续 N 个词的序列
Embedding：将 N-gram 映射为向量
作用：捕获语言的局部模式和语义信息

N-gram Embedding 的优势：

语言理解：提升模型的语言理解能力
上下文感知：更好地理解上下文信息
语义捕获：捕获语言的语义信息

这种设计的意义在于：通过增加 N-gram Embedding 的参数量，提升模型的语言理解能力，而不是简单增加模型的总参数量。

专用缓存、内核融合及推测解码：推理效率的三重优化

文章介绍了 LongCat-Flash-Lite 的三项推理优化技术：专用缓存、内核融合及推测解码。这三重优化让我对推理效率的提升有了新的认识。

专用缓存：

原理：为常用的 N-gram 建立专用缓存
优势：减少重复计算，提升推理速度
效果：推理速度提升 30% 以上

内核融合：

原理：将多个操作融合为一个内核，减少内存访问
优势：减少内存访问次数，提升推理速度
效果：推理速度提升 20% 以上

推测解码：

原理：预测下一个 Token，减少实际计算量
优势：减少计算量，提升推理速度
效果：推理速度提升 50% 以上

这三重优化的核心是：从多个层面优化推理效率，实现 3B 级激活参数达到 80B 级性能的效果。

3B 级激活参数达到 80B 级性能：效率的革命

文章指出，LongCat-Flash-Lite 实现了以 3B 级激活参数达到 80B 级性能的效果。这个成就让我对模型效率有了新的认识。

激活参数 vs 总参数：

总参数：模型的所有参数，包括激活和未激活的参数
激活参数：实际参与推理的参数
效率：激活参数越少，推理效率越高

3B 级激活参数达到 80B 级性能：

效率提升：推理效率提升 26 倍以上
成本降低：推理成本降低 26 倍以上
速度提升：推理速度提升 26 倍以上

这种效率的革命，让大模型的应用变得更加可行。当推理成本降低 26 倍时，更多的应用场景变得经济可行。

API 可达 500-700 token/s：推理速度的极致

文章提到，LongCat-Flash-Lite 的 API 可达 500-700 token/s。这个速度让我对推理速度的极致有了新的认识。

500-700 token/s 的意义：

实时交互：可以实现实时的文本生成和交互
低延迟：响应延迟低于 200ms
高吞吐：单机可以服务大量用户

这个速度的意义在于：让大模型的实时应用成为可能。当推理速度达到 500-700 token/s 时，大模型可以用于实时对话、实时翻译、实时摘要等场景。

Agent 工具调用和代码修复：实战场景的领先

文章指出，LongCat-Flash-Lite 在 Agent 工具调用和代码修复（SWE-Bench）等实战场景中显著领先同类模型。这个成就让我对模型的实战能力有了新的认识。

Agent 工具调用：

场景：AI 智能体需要调用各种工具完成任务
挑战：需要准确理解工具的用途和调用方式
表现：LongCat-Flash-Lite 显著领先同类模型

代码修复（SWE-Bench）：

场景：AI 需要修复代码中的错误
挑战：需要准确理解代码逻辑和错误原因
表现：LongCat-Flash-Lite 显著领先同类模型

这些实战场景的领先，说明 LongCat-Flash-Lite 不是简单的参数优化，而是在实战能力上的真正提升。

生产级部署指南：从实验到生产

文章提供了基于 Transformers 和 SGLang 的生产级部署指南。这个指南让我对模型的生产部署有了具体的认识。

Transformers 部署：

优势：兼容性好，易于集成
适用场景：中小规模部署
挑战：推理效率相对较低

SGLang 部署：

优势：推理效率高，适合大规模部署
适用场景：大规模生产部署
挑战：需要额外的学习成本

这两个部署方案的意义在于：让 LongCat-Flash-Lite 可以快速从实验环境迁移到生产环境，实现真正的价值。

Function Calling 实战示例：AI 智能体的新能力

文章提供了 Function Calling 的实战示例。这个示例让我对 AI 智能体的新能力有了具体的认识。

Function Calling 的原理：

AI 智能体可以调用预定义的函数
通过函数调用，AI 可以执行各种任务
这是 AI 智能体从”思考者”到”行动者”的关键

Function Calling 的意义：

扩展 AI 能力：让 AI 可以执行各种任务
提升实用性：让 AI 可以解决实际问题
增强交互性：让 AI 可以与外部系统交互

这个实战示例的意义在于：展示了 LongCat-Flash-Lite 在 AI 智能体场景中的应用潜力。

MIT 协议开源：真正的开源精神

文章宣布 LongCat-Flash-Lite 采用 MIT 协议开源。这个决定让我对开源精神有了新的认识。

MIT 协议的优势：

宽松：允许商业使用和修改
简单：没有复杂的限制条款
友好：对企业和开发者都友好

开源的意义：

促进创新：让更多人可以基于 LongCat-Flash-Lite 进行创新
降低门槛：让中小企业也能使用大模型技术
推动发展：推动整个行业的技术进步

这个开源决定的意义在于：体现了中国团队的开源精神，让更多人可以受益于这项技术创新。

深度思考：技术创新需要突破思维定式

读完这篇文章，我一直在思考一个问题：技术创新需要突破思维定式。

第一，传统 MoE 的思维定式。传统 MoE 将参数主要分配给专家网络，这可能是思维定式。LongCat-Flash-Lite 打破了这个思维定式，将参数主要分配给嵌入层。

第二，效率优先的思维定式。传统大模型追求更大的参数量，这可能也是思维定式。LongCat-Flash-Lite 证明了：效率比规模更重要。

第三，开源的思维定式。很多企业不愿意开源核心技术，这可能也是思维定式。LongCat-Flash-Lite 采用 MIT 协议开源，打破了这个思维定式。

技术创新的本质是：突破思维定式，尝试新的可能性。只有敢于挑战传统，才能实现真正的创新。

总结：中国团队的技术创新能力

这篇文章让我深刻认识到，中国团队的技术创新能力已经达到世界领先水平。

作为从业者，我们需要：

学习 LongCat-Flash-Lite 的创新思路：突破思维定式，尝试新的架构设计
重视模型效率：效率比规模更重要，追求更高的推理效率
关注实战场景：模型的最终价值在于解决实际问题
拥抱开源精神：开源可以促进创新，推动整个行业的发展

LongCat-Flash-Lite 的成功，标志着中国团队在 MoE 架构上的创新能力已经达到世界领先水平。这不是终点，而是新的起点。未来，中国团队将在更多领域实现技术创新，为 AI 的发展贡献中国智慧。

来源：美团开源 LongCat-Flash-Lite：实现轻量化 MoE 高效推理

引言：当中国团队突破 MoE 的思维定式

非典型 MoE 设计：打破传统架构

N-gram Embedding：语言理解的新维度

专用缓存、内核融合及推测解码：推理效率的三重优化

3B 级激活参数达到 80B 级性能：效率的革命

API 可达 500-700 token/s：推理速度的极致

Agent 工具调用和代码修复：实战场景的领先

生产级部署指南：从实验到生产

Function Calling 实战示例：AI 智能体的新能力

MIT 协议开源：真正的开源精神

深度思考：技术创新需要突破思维定式

总结：中国团队的技术创新能力

评论

发表回复

更多文章

想挣钱却没办法？2026 年的答案：一人 + AI，把焦虑变成系统

Dan Koe 的一日计划：重启人生，不是多做，而是「每天做对几件事」

大模型接入聊天软件：别只看「能不能用」，先想「怎么活得久」

【day12】更新大神 Dan Koe 推荐的 12 本书：不是多读，而是「把书读进系统里」