LongCat-2.0 深度测评：1.6T 参数“长猫”能否重塑开源 AI 格局？

测试依据：官方基准、Hugging Face / OpenRouter 公开反馈、跨模型对比数据

引言：从互联网老梗到万亿参数新星

2005 年的 Longcat 是一只被主人拎起来伸得老长的白猫，一句“Longcat is long”红遍全球。
2026 年，美团把这个梗玩出了新高度——LongCat-2.0，一款1.6 万亿参数的 MoE 大模型，原生支持 1M 上下文，主打 agentic coding（智能体编程）。

命名本身就是顶级致敬：猫很长，参数更长，上下文最长。

核心规格

总参数：1.6T（Mixture-of-Experts）

激活参数：33B–56B / token

上下文窗口：原生 1M tokens

训练平台：5 万卡国产 ASIC 集群（完全自研）

开源协议：MIT（Hugging Face 可下载）

关键技术：

LongCat Sparse Attention (LSA)

MOPD 多专家融合

动态专家激活（简单 token 几乎零计算）

基准性能

强势领域

| 基准测试 | LongCat-2.0 | 对比参考 | 评价 |
|---------------------------|-------------|-----------------------|---------------|
| SWE-bench Pro | 59.5 | GPT-5.5 (58.6) | 领先 |
| Terminal-Bench 2.1 | 70.8 | - | 领先 |
| SWE-bench Multilingual | 77.3 | - | 领先 |
| RWSearch | 78.8 | - | 领先 |
| FORTE | 73.2 | - | 竞争力强 |
| GPQA-diamond | 88.9 | Qwen3.6-27B (87.8) | 小幅领先 |

结论：在软件工程、终端 Agent 和长上下文任务上表现突出，尤其适合大型代码库和自主开发场景。

通用能力反馈

数学/复杂推理：中上，部分场景有幻觉，落后于 Gemini / Claude 顶级版本

中文能力：优秀

英文通用对话：中规中矩

创意写作：偏实用，文学性一般

与主流模型对比

vs Grok 4：Grok 在幽默感、实时知识和通用推理更强；LongCat 在超长上下文 + 专业 coding Agent 占优

vs Claude Opus：Claude 更均衡细腻；LongCat 在特定编程基准能反超

vs DeepSeek/Qwen：参数规模更大，但在部分通用 benchmark 领先幅度有限

vs GPT-5.5：SWE-bench 小胜，整体生态仍需追赶

实际使用推荐

强烈推荐：

大型代码库重构与维护

超长文档分析（1M 上下文）

AI Agent 开发与工具链

希望本地部署/自建服务的团队

不推荐：

极致创意写作

高难度数学奥赛级推理

追求最快响应速度（建议用 LongCat-Flash 系列）

性价比：开源 + MIT + 强大 coding 能力，极高。

最终评分（满分 10 分）

编程 / Agent 能力：9.2

通用推理：7.8

上下文处理：9.5

开源友好度：9.8

综合评分：8.6

一句话总结

LongCat-2.0 不是最聪明的猫，但绝对是最长、最务实、最懂梗的那只。
它在 agentic coding 领域打出了一片天地，对开发者尤其是需要长上下文和代码智能体的团队来说，是当前最值得关注的中国开源大模型之一。

后记
从 meme 到万亿模型，Longcat 用 21 年完成了“is long”的终极进化。美团这波操作，既有趣又有实力，值得期待后续发展。

🐱 Longcat is long……and still getting longer.

数据来源于官方发布与社区公开反馈，实际体验以 longcat.chat / 本地部署为准。欢迎讨论！