MiroThinker: Spingere i Limiti delle Prestazioni degli Agenti di Ricerca Open-Source tramite Scalabilità di Modello, Contesto e Interattività
MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling
November 14, 2025
Autori: MiroMind Team, Song Bai, Lidong Bing, Carson Chen, Guanzheng Chen, Yuntao Chen, Zhe Chen, Ziyi Chen, Jifeng Dai, Xuan Dong, Yue Deng, Yunjie Fu, Junqi Ge, Chenxia Han, Tammy Huang, Zhenhang Huang, Jerry Jiao, Shilei Jiang, Tianyu Jiao, Xiaoqi Jian, Lei Lei, Ruilin Li, Ryan Luo, Tiantong Li, Xiang Lin, Ziyuan Liu, Zhiqi Li, Jie Ni, Qiang Ren, Pax Sun, Shiqian Su, Chenxin Tao, Bin Wang, Hellen Wang, Haonan Wang, James Wang, Jin Wang, Jojo Wang, Letian Wang, Shizun Wang, Weizhi Wang, Zixuan Wang, Jinfan Xu, Sen Xing, Chenyu Yang, Hai Ye, Jiaheng Yu, Yue Yu, Muyan Zhong, Tianchen Zhao, Xizhou Zhu, Yanpeng Zhou, Yifan Zhang, Zhi Zhu
cs.AI
Abstract
Presentiamo MiroThinker v1.0, un agente di ricerca open-source progettato per far progredire le capacità di ragionamento aumentato da strumenti e di ricerca di informazioni. A differenza degli agenti precedenti che si limitano a scalare le dimensioni del modello o la lunghezza del contesto, MiroThinker esplora lo scaling interattivo a livello di modello, addestrando sistematicamente il modello a gestire interazioni agente-ambiente più profonde e frequenti come terza dimensione del miglioramento delle prestazioni. A differenza dello scaling al tempo di test degli LLM, che opera in isolamento e rischia il degrado con catene di ragionamento più lunghe, lo scaling interattivo sfrutta il feedback ambientale e l'acquisizione di informazioni esterne per correggere errori e perfezionare le traiettorie. Attraverso l'apprendimento per rinforzo, il modello raggiunge uno scaling interattivo efficiente: con una finestra contestuale di 256K, può eseguire fino a 600 chiamate a strumenti per task, consentendo un ragionamento multi-turno prolungato e flussi di lavoro di ricerca complessi nel mondo reale. Attraverso quattro benchmark rappresentativi - GAIA, HLE, BrowseComp e BrowseComp-ZH - la variante da 72B raggiunge rispettivamente una precisione fino all'81,9%, 37,7%, 47,1% e 55,6%, superando i precedenti agenti open-source e avvicinandosi alle controparti commerciali come GPT-5-high. La nostra analisi rivela che MiroThinker beneficia dello scaling interattivo in modo coerente: le prestazioni di ricerca migliorano in modo prevedibile man mano che il modello si impegna in interazioni agente-ambiente più profonde e frequenti, dimostrando che la profondità di interazione mostra comportamenti di scaling analoghi alle dimensioni del modello e alla lunghezza del contesto. Questi risultati stabiliscono lo scaling interattivo come una terza dimensione critica per la costruzione di agenti di ricerca open di prossima generazione, complementare alla capacità del modello e alle finestre contestuali.
English
We present MiroThinker v1.0, an open-source research agent designed to advance tool-augmented reasoning and information-seeking capabilities. Unlike previous agents that only scale up model size or context length, MiroThinker explores interaction scaling at the model level, systematically training the model to handle deeper and more frequent agent-environment interactions as a third dimension of performance improvement. Unlike LLM test-time scaling, which operates in isolation and risks degradation with longer reasoning chains, interactive scaling leverages environment feedback and external information acquisition to correct errors and refine trajectories. Through reinforcement learning, the model achieves efficient interaction scaling: with a 256K context window, it can perform up to 600 tool calls per task, enabling sustained multi-turn reasoning and complex real-world research workflows. Across four representative benchmarks-GAIA, HLE, BrowseComp, and BrowseComp-ZH-the 72B variant achieves up to 81.9%, 37.7%, 47.1%, and 55.6% accuracy respectively, surpassing previous open-source agents and approaching commercial counterparts such as GPT-5-high. Our analysis reveals that MiroThinker benefits from interactive scaling consistently: research performance improves predictably as the model engages in deeper and more frequent agent-environment interactions, demonstrating that interaction depth exhibits scaling behaviors analogous to model size and context length. These findings establish interaction scaling as a third critical dimension for building next-generation open research agents, complementing model capacity and context windows.