Technischer Bericht zu LongCat-Flash-Thinking-2601
LongCat-Flash-Thinking-2601 Technical Report
January 23, 2026
papers.authors: Meituan LongCat Team, Anchun Gui, Bei Li, Bingyang Tao, Bole Zhou, Borun Chen, Chao Zhang, Chao Zhang, Chen Gao, Chen Zhang, Chengcheng Han, Chenhui Yang, Chuyu Zhang, Cong Chen, Cunguang Wang, Daoru Pan, Defei Bu, Dengchang Zhao, Di Xiu, Dishan Liu, Dongyu Ru, Dunwei Tu, Fan Wu, Fengcheng Yuan, Fengcun Li, Gang Xu, Guanyu Wu, Guoyuan Lin, Haibin Wang, Hansi Yang, Hao Yang, Haonan Yan, Haoxiang Ma, Haoxing Wen, Hongyan Hao, Hongyin Tang, Hongyu Zang, Hongzhi Ni, Hui Su, Jiacheng Zhang, Jiahong Zhou, Jiahuan Li, Jiaming Wang, Jian Yang, Jianfei Zhang, Jianhao Xu, Jianing Wang, Jiapeng Zhu, Jiaqi Sun, Jiarong Shi, Jiarui Zhao, Jingang Wang, Jinluan Yang, Jinrui Ding, Jinwei Xiao, Jiyuan He, Juncan Xu, Kefeng Zhang, Keheng Wang, Li Wei, Lianhui Ma, Lin Qiu, Lingbing Kong, Lingchuan Liu, Linsen Guo, Mengshen Zhu, Mengxia Shen, Mingyang Zhu, Peiguang Li, Peng Pei, Pengcheng Jia, Pengtao Zhang, Peng Zhao, Qi Gu, Qiong Huang, Qiyuan Duan, Quanchi Weng, Rongxiang Weng, Rongzhi Zhang, Rumei Li, Shanglin Lei, Shengnan An, Shijun Dai, Shuaikang Liu, Shuang Zhou, Shuo Wang, Songyuan Zhao, Tao Liang, Tianhao Hu, Tianze Chen, Wei Liu, Wei Shi, Wei Wang, Weifeng Tang, Wenjie Shi, Wenlong Zhu, Wentao Chen, Wentao Shi, Xi Su, Xiangcheng Liu, Xiandi Ma, Xiangyu Xi, Xiangyuan Liu, Xiangzhou Huang, Xiao Liu, Xiaodong Cai, Xiaolong Chen, Xiaowei Shi, Xiaoyu Li, Xin Chen, Xingchen Liu, Xuan Huang, Xuezhi Cao, Xunliang Cai, Yan Chen, Yang Bai, Yang Liu, Yang Yang, Yang Zheng, Yaoming Wang, Yaoming Zhu, Yaqi Huo, Yanyu Chen, Yaorui Shi, Yerui Sun, Yi Zhang, Yihao Chen, Yi-Kai Zhang, Yifan Lu, Yifan Zhao, Yitao Zhai, Yongjing Yin, Yongwei Zhou, Youshao Xiao, Yuchuan Dai, Yuchen Xie, Yuchen Yu, Yufei Zhang, Yuhuai Wei, Yulei Qian, Yunfan Liang, Yunke Zhao, Yuwei Jiang, Yuxin Bian, Yuxin Chen, Yuxin Liu, Yue Xu, Yueqing Sun, Zeyang Yu, Zhao Yang, Zhengsheng Huang, Zhengyu Chen, Zhijian Liu, Zhikang Xia, Zhimin Lin, Zhiyuan Yao, Zhuofan Chen, Zhuowen Han, Zijian Zhang, Ziran Li, Ziwen Wang, Ziyuan Zhuang
cs.AI
papers.abstract
Wir stellen LongCat-Flash-Thinking-2601 vor, ein quelloffenes Reasoning-Modell vom Typ Mixture-of-Experts (MoE) mit 560 Milliarden Parametern und überragender agentenbasierter Reasoning-Fähigkeit. LongCat-Flash-Thinking-2601 erzielt state-of-the-art Leistungen unter quelloffenen Modellen in einer breiten Palette von agentenbasierten Benchmarks, einschließlich agentenbasierter Suche, agentenbasierter Werkzeugnutzung und werkzeugintegriertem Reasoning. Über die Benchmark-Leistungen hinaus zeigt das Modell eine starke Generalisierungsfähigkeit bei komplexen Werkzeuginteraktionen und ein robustes Verhalten unter verrauschten realen Umgebungen. Seine fortgeschrittenen Fähigkeiten resultieren aus einem einheitlichen Trainingsframework, das domain-paralleles Expertentraining mit anschließender Fusion kombiniert, zusammen mit einem end-to-end Co-Design von Datenerstellung, Umgebungen, Algorithmen und Infrastruktur, das vom Pre-Training bis zum Post-Training reicht. Insbesondere wird die starke Generalisierungsfähigkeit des Modells bei komplexer Werkzeugnutzung durch unsere eingehende Erforschung der Skalierung von Umgebungen und prinzipiengeleiteter Aufgabenkonstruktion angetrieben. Um langschwänzige, schiefe Generierung und mehrstufige agentenbasierte Interaktionen zu optimieren und ein stabiles Training über mehr als 10.000 Umgebungen in über 20 Domänen hinweg zu ermöglichen, erweitern wir systematisch unser asynchrones Reinforcement-Learning-Framework DORA für stabiles und effizientes Training in großem Maßstab über mehrere Umgebungen. Darüber hinaus führen wir, in der Erkenntnis, dass reale Aufgaben inhärent verrauscht sind, eine systematische Analyse und Zerlegung realer Rauschmuster durch und entwerfen gezielte Trainingsverfahren, um solche Unvollkommenheiten explizit in den Trainingsprozess zu integrieren, was zu einer verbesserten Robustheit für reale Anwendungen führt. Um die Leistung bei komplexen Reasoning-Aufgaben weiter zu steigern, führen wir einen „Heavy Thinking“-Modus ein, der effektives Skalieren zur Testzeit ermöglicht, indem Reasoning-Tiefe und -Breite durch intensives paralleles Denken gemeinsam erweitert werden.
English
We introduce LongCat-Flash-Thinking-2601, a 560-billion-parameter open-source Mixture-of-Experts (MoE) reasoning model with superior agentic reasoning capability. LongCat-Flash-Thinking-2601 achieves state-of-the-art performance among open-source models on a wide range of agentic benchmarks, including agentic search, agentic tool use, and tool-integrated reasoning. Beyond benchmark performance, the model demonstrates strong generalization to complex tool interactions and robust behavior under noisy real-world environments. Its advanced capability stems from a unified training framework that combines domain-parallel expert training with subsequent fusion, together with an end-to-end co-design of data construction, environments, algorithms, and infrastructure spanning from pre-training to post-training. In particular, the model's strong generalization capability in complex tool-use are driven by our in-depth exploration of environment scaling and principled task construction. To optimize long-tailed, skewed generation and multi-turn agentic interactions, and to enable stable training across over 10,000 environments spanning more than 20 domains, we systematically extend our asynchronous reinforcement learning framework, DORA, for stable and efficient large-scale multi-environment training. Furthermore, recognizing that real-world tasks are inherently noisy, we conduct a systematic analysis and decomposition of real-world noise patterns, and design targeted training procedures to explicitly incorporate such imperfections into the training process, resulting in improved robustness for real-world applications. To further enhance performance on complex reasoning tasks, we introduce a Heavy Thinking mode that enables effective test-time scaling by jointly expanding reasoning depth and width through intensive parallel thinking.