ChatPaper.aiChatPaper

MiroThinker: De Prestatiegrenzen van Open-Source Onderzoeksagenten Verleggen via Schaalvergroting van Model, Context en Interactie

MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling

November 14, 2025
Auteurs: MiroMind Team, Song Bai, Lidong Bing, Carson Chen, Guanzheng Chen, Yuntao Chen, Zhe Chen, Ziyi Chen, Jifeng Dai, Xuan Dong, Yue Deng, Yunjie Fu, Junqi Ge, Chenxia Han, Tammy Huang, Zhenhang Huang, Jerry Jiao, Shilei Jiang, Tianyu Jiao, Xiaoqi Jian, Lei Lei, Ruilin Li, Ryan Luo, Tiantong Li, Xiang Lin, Ziyuan Liu, Zhiqi Li, Jie Ni, Qiang Ren, Pax Sun, Shiqian Su, Chenxin Tao, Bin Wang, Hellen Wang, Haonan Wang, James Wang, Jin Wang, Jojo Wang, Letian Wang, Shizun Wang, Weizhi Wang, Zixuan Wang, Jinfan Xu, Sen Xing, Chenyu Yang, Hai Ye, Jiaheng Yu, Yue Yu, Muyan Zhong, Tianchen Zhao, Xizhou Zhu, Yanpeng Zhou, Yifan Zhang, Zhi Zhu
cs.AI

Samenvatting

Wij presenteren MiroThinker v1.0, een open-source onderzoeksagent die is ontworpen om tool-ondersteund redeneren en informatiezoekende capaciteiten te bevorderen. In tegenstelling tot eerdere agents die alleen modelschaal of contextlengte opschalen, verkent MiroThinker interactieschaling op modelniveau door het model systematisch te trainen om diepere en frequentere agent-omgeving-interacties te verwerken als een derde dimensie van prestatieverbetering. Anders dan LLM-testtijd-schaling, die geïsoleerd opereert en risico loopt op degradatie bij langere redeneerketens, benut interactieve schaling omgevingsfeedback en externe informatieverwerving om fouten te corrigeren en trajecten te verfijnen. Via reinforcement learning bereikt het model efficiënte interactieschaling: met een contextvenster van 256K kan het tot 600 toolaanroepen per taak uitvoeren, wat aanhoudende multi-turn redenering en complexe onderzoeksworkflows in de echte wereld mogelijk maakt. Over vier representatieve benchmarks - GAIA, HLE, BrowseComp en BrowseComp-ZH - behaalt de 72B-variant respectievelijk een nauwkeurigheid van maximaal 81,9%, 37,7%, 47,1% en 55,6%, waarmee eerdere open-source agents worden overtroffen en commerciële tegenhangers zoals GPT-5-high worden benaderd. Onze analyse toont aan dat MiroThinker consistent profiteert van interactieve schaling: de onderzoeksprestaties verbeteren voorspelbaar naarmate het model diepere en frequentere agent-omgeving-interacties aangaat, wat aantoont dat interactiediepte schaalgedrag vertoont dat analoog is aan modelschaal en contextlengte. Deze bevindingen vestigen interactieschaling als een derde kritische dimensie voor het bouwen van next-generation open onderzoeksagents, als aanvulling op modelcapaciteit en contextvensters.
English
We present MiroThinker v1.0, an open-source research agent designed to advance tool-augmented reasoning and information-seeking capabilities. Unlike previous agents that only scale up model size or context length, MiroThinker explores interaction scaling at the model level, systematically training the model to handle deeper and more frequent agent-environment interactions as a third dimension of performance improvement. Unlike LLM test-time scaling, which operates in isolation and risks degradation with longer reasoning chains, interactive scaling leverages environment feedback and external information acquisition to correct errors and refine trajectories. Through reinforcement learning, the model achieves efficient interaction scaling: with a 256K context window, it can perform up to 600 tool calls per task, enabling sustained multi-turn reasoning and complex real-world research workflows. Across four representative benchmarks-GAIA, HLE, BrowseComp, and BrowseComp-ZH-the 72B variant achieves up to 81.9%, 37.7%, 47.1%, and 55.6% accuracy respectively, surpassing previous open-source agents and approaching commercial counterparts such as GPT-5-high. Our analysis reveals that MiroThinker benefits from interactive scaling consistently: research performance improves predictably as the model engages in deeper and more frequent agent-environment interactions, demonstrating that interaction depth exhibits scaling behaviors analogous to model size and context length. These findings establish interaction scaling as a third critical dimension for building next-generation open research agents, complementing model capacity and context windows.
PDF1564December 1, 2025