ChatPaper.aiChatPaper

# LongCat-Flash-Thinking-2601 기술 보고서

LongCat-Flash-Thinking-2601 Technical Report

January 23, 2026
저자: Meituan LongCat Team, Anchun Gui, Bei Li, Bingyang Tao, Bole Zhou, Borun Chen, Chao Zhang, Chao Zhang, Chen Gao, Chen Zhang, Chengcheng Han, Chenhui Yang, Chuyu Zhang, Cong Chen, Cunguang Wang, Daoru Pan, Defei Bu, Dengchang Zhao, Di Xiu, Dishan Liu, Dongyu Ru, Dunwei Tu, Fan Wu, Fengcheng Yuan, Fengcun Li, Gang Xu, Guanyu Wu, Guoyuan Lin, Haibin Wang, Hansi Yang, Hao Yang, Haonan Yan, Haoxiang Ma, Haoxing Wen, Hongyan Hao, Hongyin Tang, Hongyu Zang, Hongzhi Ni, Hui Su, Jiacheng Zhang, Jiahong Zhou, Jiahuan Li, Jiaming Wang, Jian Yang, Jianfei Zhang, Jianhao Xu, Jianing Wang, Jiapeng Zhu, Jiaqi Sun, Jiarong Shi, Jiarui Zhao, Jingang Wang, Jinluan Yang, Jinrui Ding, Jinwei Xiao, Jiyuan He, Juncan Xu, Kefeng Zhang, Keheng Wang, Li Wei, Lianhui Ma, Lin Qiu, Lingbing Kong, Lingchuan Liu, Linsen Guo, Mengshen Zhu, Mengxia Shen, Mingyang Zhu, Peiguang Li, Peng Pei, Pengcheng Jia, Pengtao Zhang, Peng Zhao, Qi Gu, Qiong Huang, Qiyuan Duan, Quanchi Weng, Rongxiang Weng, Rongzhi Zhang, Rumei Li, Shanglin Lei, Shengnan An, Shijun Dai, Shuaikang Liu, Shuang Zhou, Shuo Wang, Songyuan Zhao, Tao Liang, Tianhao Hu, Tianze Chen, Wei Liu, Wei Shi, Wei Wang, Weifeng Tang, Wenjie Shi, Wenlong Zhu, Wentao Chen, Wentao Shi, Xi Su, Xiangcheng Liu, Xiandi Ma, Xiangyu Xi, Xiangyuan Liu, Xiangzhou Huang, Xiao Liu, Xiaodong Cai, Xiaolong Chen, Xiaowei Shi, Xiaoyu Li, Xin Chen, Xingchen Liu, Xuan Huang, Xuezhi Cao, Xunliang Cai, Yan Chen, Yang Bai, Yang Liu, Yang Yang, Yang Zheng, Yaoming Wang, Yaoming Zhu, Yaqi Huo, Yanyu Chen, Yaorui Shi, Yerui Sun, Yi Zhang, Yihao Chen, Yi-Kai Zhang, Yifan Lu, Yifan Zhao, Yitao Zhai, Yongjing Yin, Yongwei Zhou, Youshao Xiao, Yuchuan Dai, Yuchen Xie, Yuchen Yu, Yufei Zhang, Yuhuai Wei, Yulei Qian, Yunfan Liang, Yunke Zhao, Yuwei Jiang, Yuxin Bian, Yuxin Chen, Yuxin Liu, Yue Xu, Yueqing Sun, Zeyang Yu, Zhao Yang, Zhengsheng Huang, Zhengyu Chen, Zhijian Liu, Zhikang Xia, Zhimin Lin, Zhiyuan Yao, Zhuofan Chen, Zhuowen Han, Zijian Zhang, Ziran Li, Ziwen Wang, Ziyuan Zhuang
cs.AI

초록

LongCat-Flash-Thinking-2601을 소개합니다. 이는 5,600억 개의 매개변수를 가진 오픈소스 MoE(전문가 혼합) 추론 모델로, 탁월한 에이전트 추론 능력을 갖추고 있습니다. LongCat-Flash-Thinking-2601은 에이전트 검색, 에이전트 도구 사용, 도구 통합 추론 등 다양한 에이전트 벤치마크에서 오픈소스 모델 중 최고 수준의 성능을 달성합니다. 벤치마크 성능을 넘어, 이 모델은 복잡한 도구 상호작용에 대한 강력한 일반화 능력과 잡음이 있는 실제 환경에서의 견고한 동작을 보여줍니다. 이러한 고급 능력은 도메인 병렬 전문가 훈련과 후속 융합을 결합한 통합 훈련 프레임워크와, 사전 훈련부터 사후 훈련에 이르는 데이터 구축, 환경, 알고리즘, 인프라의 종단 간 공동 설계에서 비롯됩니다. 특히, 복잡한 도구 사용에서의 강력한 일반화 능력은 환경 확장과 원칙적인 작업 구축에 대한 심층적인 탐구를 통해 구현되었습니다. 긴 꼬리를 가진 편향된 생성과 다중 턴 에이전트 상호작용을 최적화하고, 20개 이상의 도메인에 걸친 10,000개 이상의 환경에서 안정적인 훈련을 가능하게 하기 위해, 우리는 비동기 강화 학습 프레임워크인 DORA를 체계적으로 확장하여 안정적이고 효율적인 대규모 다중 환경 훈련을 구현했습니다. 더 나아가, 실제 업무에는 본질적으로 잡음이 존재함을 인식하고, 실제 세계의 잡음 패턴을 체계적으로 분석 및 분해하여 이러한 결함을 훈련 과정에 명시적으로 통합하는 표적 훈련 절차를 설계함으로써 실제 적용에서의 견고성을 향상시켰습니다. 복잡한 추론 작업의 성능을 더욱 향상시키기 위해, 집중적인 병렬 사고를 통해 추론 깊이와 폭을 공동으로 확장하여 효과적인 테스트 시간 스케일링을 가능하게 하는 Heavy Thinking 모드를 도입했습니다.
English
We introduce LongCat-Flash-Thinking-2601, a 560-billion-parameter open-source Mixture-of-Experts (MoE) reasoning model with superior agentic reasoning capability. LongCat-Flash-Thinking-2601 achieves state-of-the-art performance among open-source models on a wide range of agentic benchmarks, including agentic search, agentic tool use, and tool-integrated reasoning. Beyond benchmark performance, the model demonstrates strong generalization to complex tool interactions and robust behavior under noisy real-world environments. Its advanced capability stems from a unified training framework that combines domain-parallel expert training with subsequent fusion, together with an end-to-end co-design of data construction, environments, algorithms, and infrastructure spanning from pre-training to post-training. In particular, the model's strong generalization capability in complex tool-use are driven by our in-depth exploration of environment scaling and principled task construction. To optimize long-tailed, skewed generation and multi-turn agentic interactions, and to enable stable training across over 10,000 environments spanning more than 20 domains, we systematically extend our asynchronous reinforcement learning framework, DORA, for stable and efficient large-scale multi-environment training. Furthermore, recognizing that real-world tasks are inherently noisy, we conduct a systematic analysis and decomposition of real-world noise patterns, and design targeted training procedures to explicitly incorporate such imperfections into the training process, resulting in improved robustness for real-world applications. To further enhance performance on complex reasoning tasks, we introduce a Heavy Thinking mode that enables effective test-time scaling by jointly expanding reasoning depth and width through intensive parallel thinking.
PDF1485January 27, 2026