Relatório Técnico LongCat-Flash-Thinking-2601

Resumo

Apresentamos o LongCat-Flash-Thinking-2601, um modelo de raciocínio de código aberto do tipo Mistura de Especialistas (MoE) com 560 bilhões de parâmetros, que possui capacidade de raciocínio agentico superior. O LongCat-Flash-Thinking-2601 atinge desempenho de ponta entre os modelos de código aberto em uma ampla gama de benchmarks agenticos, incluindo busca agentica, uso de ferramentas agenticas e raciocínio com integração de ferramentas. Além do desempenho em benchmarks, o modelo demonstra forte generalização para interações complexas com ferramentas e comportamento robusto em ambientes do mundo real com ruído. Sua capacidade avançada decorre de uma estrutura de treinamento unificada que combina treinamento de especialistas em paralelo por domínio com fusão subsequente, juntamente com um co-projeto de ponta a ponta que abrange desde a construção de dados, ambientes, algoritmos e infraestrutura, desde o pré-treinamento até o pós-treinamento. Em particular, a forte capacidade de generalização do modelo no uso complexo de ferramentas é impulsionada por nossa exploração aprofundada do dimensionamento de ambientes e da construção de tarefas baseada em princípios. Para otimizar gerações de cauda longa e assimétricas e interações agenticas multi-turno, e para permitir treinamento estável em mais de 10.000 ambientes abrangendo mais de 20 domínios, estendemos sistematicamente nossa estrutura de aprendizado por reforço assíncrono, DORA, para um treinamento em larga escala e multi-ambiente estável e eficiente. Além disso, reconhecendo que as tarefas do mundo real são inerentemente ruidosas, conduzimos uma análise sistemática e uma decomposição dos padrões de ruído do mundo real, e projetamos procedimentos de treinamento direcionados para incorporar explicitamente tais imperfeições no processo de treinamento, resultando em maior robustez para aplicações do mundo real. Para melhorar ainda mais o desempenho em tarefas complexas de raciocínio, introduzimos um modo de Pensamento Pesado (Heavy Thinking) que permite um dimensionamento eficaz no momento do teste através da expansão conjunta da profundidade e largura do raciocínio por meio de pensamento paralelo intensivo.

English

We introduce LongCat-Flash-Thinking-2601, a 560-billion-parameter open-source Mixture-of-Experts (MoE) reasoning model with superior agentic reasoning capability. LongCat-Flash-Thinking-2601 achieves state-of-the-art performance among open-source models on a wide range of agentic benchmarks, including agentic search, agentic tool use, and tool-integrated reasoning. Beyond benchmark performance, the model demonstrates strong generalization to complex tool interactions and robust behavior under noisy real-world environments. Its advanced capability stems from a unified training framework that combines domain-parallel expert training with subsequent fusion, together with an end-to-end co-design of data construction, environments, algorithms, and infrastructure spanning from pre-training to post-training. In particular, the model's strong generalization capability in complex tool-use are driven by our in-depth exploration of environment scaling and principled task construction. To optimize long-tailed, skewed generation and multi-turn agentic interactions, and to enable stable training across over 10,000 environments spanning more than 20 domains, we systematically extend our asynchronous reinforcement learning framework, DORA, for stable and efficient large-scale multi-environment training. Furthermore, recognizing that real-world tasks are inherently noisy, we conduct a systematic analysis and decomposition of real-world noise patterns, and design targeted training procedures to explicitly incorporate such imperfections into the training process, resulting in improved robustness for real-world applications. To further enhance performance on complex reasoning tasks, we introduce a Heavy Thinking mode that enables effective test-time scaling by jointly expanding reasoning depth and width through intensive parallel thinking.