ChatPaper.aiChatPaper

MiroThinker: Erweiterung der Leistungsgrenzen von Open-Source-Forschungsagenten durch Modell-, Kontext- und Interaktionsskalierung

MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling

November 14, 2025
papers.authors: MiroMind Team, Song Bai, Lidong Bing, Carson Chen, Guanzheng Chen, Yuntao Chen, Zhe Chen, Ziyi Chen, Jifeng Dai, Xuan Dong, Yue Deng, Yunjie Fu, Junqi Ge, Chenxia Han, Tammy Huang, Zhenhang Huang, Jerry Jiao, Shilei Jiang, Tianyu Jiao, Xiaoqi Jian, Lei Lei, Ruilin Li, Ryan Luo, Tiantong Li, Xiang Lin, Ziyuan Liu, Zhiqi Li, Jie Ni, Qiang Ren, Pax Sun, Shiqian Su, Chenxin Tao, Bin Wang, Hellen Wang, Haonan Wang, James Wang, Jin Wang, Jojo Wang, Letian Wang, Shizun Wang, Weizhi Wang, Zixuan Wang, Jinfan Xu, Sen Xing, Chenyu Yang, Hai Ye, Jiaheng Yu, Yue Yu, Muyan Zhong, Tianchen Zhao, Xizhou Zhu, Yanpeng Zhou, Yifan Zhang, Zhi Zhu
cs.AI

papers.abstract

Wir stellen MiroThinker v1.0 vor, einen Open-Source-Forschungsagenten, der entwickelt wurde, um werkzeuggestütztes Denkvermögen und informationssuchende Fähigkeiten voranzutreiben. Im Gegensatz zu früheren Agenten, die lediglich die Modellgröße oder Kontextlänge erhöhen, erforscht MiroThinker Interaktionsskalierung auf Modellebene, indem das Modell systematisch trainiert wird, tiefere und häufigere Agenten-Umgebungs-Interaktionen als dritte Dimension der Leistungsverbesserung zu bewältigen. Anders als die LLM-Testzeit-Skalierung, die isoliert arbeitet und bei längeren Denkketten ein Verschlechterungsrisiko birgt, nutzt die interaktive Skalierung Umgebungsfeedback und externen Informationserwerb, um Fehler zu korrigieren und Handlungspfade zu verfeinern. Durch bestärkendes Lernen erreicht das Modell eine effiziente Interaktionsskalierung: Mit einem 256K-Kontextfenster kann es bis zu 600 Werkzeugaufrufe pro Aufgabe durchführen, was anhaltendes mehrstufiges Denkvermögen und komplexe Forschungs-Workflows in der realen Welt ermöglicht. Über vier repräsentative Benchmarks hinweg – GAIA, HLE, BrowseComp und BrowseComp-ZH – erreicht die 72B-Variante eine Genauigkeit von bis zu 81,9 %, 37,7 %, 47,1 % bzw. 55,6 % und übertrifft damit frühere Open-Source-Agenten und nähert sich kommerziellen Gegenstücken wie GPT-5-high. Unsere Analyse zeigt, dass MiroThinker konsistent von der interaktiven Skalierung profitiert: Die Forschungsleistung verbessert sich vorhersagbar, wenn das Modell tiefere und häufigere Agenten-Umgebungs-Interaktionen eingeht, was demonstriert, dass die Interaktionstiefe Skalierungsverhalten analog zur Modellgröße und Kontextlänge aufweist. Diese Erkenntnisse etablieren die Interaktionsskalierung als dritte kritische Dimension für die Entwicklung von Forschungsagenten der nächsten Generation, die Modellkapazität und Kontextfenster ergänzt.
English
We present MiroThinker v1.0, an open-source research agent designed to advance tool-augmented reasoning and information-seeking capabilities. Unlike previous agents that only scale up model size or context length, MiroThinker explores interaction scaling at the model level, systematically training the model to handle deeper and more frequent agent-environment interactions as a third dimension of performance improvement. Unlike LLM test-time scaling, which operates in isolation and risks degradation with longer reasoning chains, interactive scaling leverages environment feedback and external information acquisition to correct errors and refine trajectories. Through reinforcement learning, the model achieves efficient interaction scaling: with a 256K context window, it can perform up to 600 tool calls per task, enabling sustained multi-turn reasoning and complex real-world research workflows. Across four representative benchmarks-GAIA, HLE, BrowseComp, and BrowseComp-ZH-the 72B variant achieves up to 81.9%, 37.7%, 47.1%, and 55.6% accuracy respectively, surpassing previous open-source agents and approaching commercial counterparts such as GPT-5-high. Our analysis reveals that MiroThinker benefits from interactive scaling consistently: research performance improves predictably as the model engages in deeper and more frequent agent-environment interactions, demonstrating that interaction depth exhibits scaling behaviors analogous to model size and context length. These findings establish interaction scaling as a third critical dimension for building next-generation open research agents, complementing model capacity and context windows.
PDF1564December 1, 2025