Rapporto Tecnico LongCat-Flash-Thinking-2601

Abstract

Presentiamo LongCat-Flash-Thinking-2601, un modello di ragionamento open-source Mixture-of-Experts (MoE) da 560 miliardi di parametri, dotato di capacità di ragionamento agentico superiore. LongCat-Flash-Thinking-2601 raggiunge prestazioni all'avanguardia tra i modelli open-source su un'ampia gamma di benchmark agentici, inclusi la ricerca agentica, l'uso di strumenti agentici e il ragionamento con integrazione di strumenti. Oltre alle prestazioni nei benchmark, il modello dimostra una forte generalizzazione per interazioni complesse con strumenti e un comportamento robusto in ambienti real-world rumorosi. La sua capacità avanzata deriva da un framework di training unificato che combina un addestramento parallelo per dominio degli esperti con una successiva fusione, unito a una co-progettazione end-to-end della costruzione dei dati, degli ambienti, degli algoritmi e dell'infrastruttura, che spazia dal pre-training al post-training. In particolare, la forte capacità di generalizzazione del modello nell'uso complesso di strumenti è guidata dalla nostra esplorazione approfondita dello scaling degli ambienti e della costruzione di task basata su principi. Per ottimizzare le interazioni agentiche multi-turno e la generazione con distribuzione lunga e asimmetrica, e per consentire un addestramento stabile su oltre 10.000 ambienti che coprono più di 20 domini, estendiamo sistematicamente il nostro framework di reinforcement learning asincrono, DORA, per un addestramento su larga scala multi-ambiente stabile ed efficiente. Inoltre, riconoscendo che i compiti del mondo reale sono intrinsecamente rumorosi, conduciamo un'analisi sistematica e una scomposizione dei pattern di rumore real-world, e progettiamo procedure di addestramento mirate per incorporare esplicitamente tali imperfezioni nel processo di training, ottenendo una robustezza migliorata per le applicazioni reali. Per migliorare ulteriormente le prestazioni su compiti di ragionamento complessi, introduciamo una modalità Heavy Thinking che consente uno scaling efficace al momento del test espandendo congiuntamente la profondità e l'ampiezza del ragionamento attraverso un pensiero parallelo intensivo.

English

We introduce LongCat-Flash-Thinking-2601, a 560-billion-parameter open-source Mixture-of-Experts (MoE) reasoning model with superior agentic reasoning capability. LongCat-Flash-Thinking-2601 achieves state-of-the-art performance among open-source models on a wide range of agentic benchmarks, including agentic search, agentic tool use, and tool-integrated reasoning. Beyond benchmark performance, the model demonstrates strong generalization to complex tool interactions and robust behavior under noisy real-world environments. Its advanced capability stems from a unified training framework that combines domain-parallel expert training with subsequent fusion, together with an end-to-end co-design of data construction, environments, algorithms, and infrastructure spanning from pre-training to post-training. In particular, the model's strong generalization capability in complex tool-use are driven by our in-depth exploration of environment scaling and principled task construction. To optimize long-tailed, skewed generation and multi-turn agentic interactions, and to enable stable training across over 10,000 environments spanning more than 20 domains, we systematically extend our asynchronous reinforcement learning framework, DORA, for stable and efficient large-scale multi-environment training. Furthermore, recognizing that real-world tasks are inherently noisy, we conduct a systematic analysis and decomposition of real-world noise patterns, and design targeted training procedures to explicitly incorporate such imperfections into the training process, resulting in improved robustness for real-world applications. To further enhance performance on complex reasoning tasks, we introduce a Heavy Thinking mode that enables effective test-time scaling by jointly expanding reasoning depth and width through intensive parallel thinking.

Rapporto Tecnico LongCat-Flash-Thinking-2601

LongCat-Flash-Thinking-2601 Technical Report

Abstract

Support