MiroThinker : Repousser les limites de performance des agents de recherche open-source par la mise à l'échelle du modèle, du contexte et de l'interaction
MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling
November 14, 2025
papers.authors: MiroMind Team, Song Bai, Lidong Bing, Carson Chen, Guanzheng Chen, Yuntao Chen, Zhe Chen, Ziyi Chen, Jifeng Dai, Xuan Dong, Yue Deng, Yunjie Fu, Junqi Ge, Chenxia Han, Tammy Huang, Zhenhang Huang, Jerry Jiao, Shilei Jiang, Tianyu Jiao, Xiaoqi Jian, Lei Lei, Ruilin Li, Ryan Luo, Tiantong Li, Xiang Lin, Ziyuan Liu, Zhiqi Li, Jie Ni, Qiang Ren, Pax Sun, Shiqian Su, Chenxin Tao, Bin Wang, Hellen Wang, Haonan Wang, James Wang, Jin Wang, Jojo Wang, Letian Wang, Shizun Wang, Weizhi Wang, Zixuan Wang, Jinfan Xu, Sen Xing, Chenyu Yang, Hai Ye, Jiaheng Yu, Yue Yu, Muyan Zhong, Tianchen Zhao, Xizhou Zhu, Yanpeng Zhou, Yifan Zhang, Zhi Zhu
cs.AI
papers.abstract
Nous présentons MiroThinker v1.0, un agent de recherche open-source conçu pour faire progresser les capacités de raisonnement augmenté par outils et de recherche d'information. Contrairement aux agents précédents qui ne faisaient qu'augmenter la taille du modèle ou la longueur du contexte, MiroThinker explore la mise à l'échelle des interactions au niveau du modèle, en l'entraînant systématiquement à gérer des interactions agent-environnement plus profondes et plus fréquentes comme une troisième dimension d'amélioration des performances. Contrairement à la mise à l'échelle au moment des tests des LLM, qui fonctionne de manière isolée et risque une dégradation avec des chaînes de raisonnement plus longues, la mise à l'échelle interactive exploite les retours de l'environnement et l'acquisition d'informations externes pour corriger les erreurs et affiner les trajectoires. Grâce à l'apprentissage par renforcement, le modèle atteint une mise à l'échelle efficace des interactions : avec une fenêtre de contexte de 256K, il peut effectuer jusqu'à 600 appels d'outils par tâche, permettant un raisonnement soutenu multi-tours et des workflows de recherche complexes dans le monde réel. Sur quatre benchmarks représentatifs - GAIA, HLE, BrowseComp et BrowseComp-ZH - la variante 72B atteint respectivement une précision allant jusqu'à 81,9 %, 37,7 %, 47,1 % et 55,6 %, surpassant les agents open-source précédents et approchant les homologues commerciaux tels que GPT-5-high. Notre analyse révèle que MiroThinker bénéficie de manière constante de la mise à l'échelle interactive : les performances de recherche s'améliorent de manière prévisible à mesure que le modèle s'engage dans des interactions agent-environnement plus profondes et plus fréquentes, démontrant que la profondeur d'interaction présente des comportements de mise à l'échelle analogues à la taille du modèle et à la longueur du contexte. Ces résultats établissent la mise à l'échelle des interactions comme une troisième dimension cruciale pour construire la prochaine génération d'agents de recherche open-source, complétant la capacité du modèle et les fenêtres de contexte.
English
We present MiroThinker v1.0, an open-source research agent designed to advance tool-augmented reasoning and information-seeking capabilities. Unlike previous agents that only scale up model size or context length, MiroThinker explores interaction scaling at the model level, systematically training the model to handle deeper and more frequent agent-environment interactions as a third dimension of performance improvement. Unlike LLM test-time scaling, which operates in isolation and risks degradation with longer reasoning chains, interactive scaling leverages environment feedback and external information acquisition to correct errors and refine trajectories. Through reinforcement learning, the model achieves efficient interaction scaling: with a 256K context window, it can perform up to 600 tool calls per task, enabling sustained multi-turn reasoning and complex real-world research workflows. Across four representative benchmarks-GAIA, HLE, BrowseComp, and BrowseComp-ZH-the 72B variant achieves up to 81.9%, 37.7%, 47.1%, and 55.6% accuracy respectively, surpassing previous open-source agents and approaching commercial counterparts such as GPT-5-high. Our analysis reveals that MiroThinker benefits from interactive scaling consistently: research performance improves predictably as the model engages in deeper and more frequent agent-environment interactions, demonstrating that interaction depth exhibits scaling behaviors analogous to model size and context length. These findings establish interaction scaling as a third critical dimension for building next-generation open research agents, complementing model capacity and context windows.