ChatPaper.aiChatPaper

MiroThinker: モデル・コンテキスト・対話的スケーリングによるオープンソース研究エージェントの性能限界への挑戦

MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling

November 14, 2025
著者: MiroMind Team, Song Bai, Lidong Bing, Carson Chen, Guanzheng Chen, Yuntao Chen, Zhe Chen, Ziyi Chen, Jifeng Dai, Xuan Dong, Yue Deng, Yunjie Fu, Junqi Ge, Chenxia Han, Tammy Huang, Zhenhang Huang, Jerry Jiao, Shilei Jiang, Tianyu Jiao, Xiaoqi Jian, Lei Lei, Ruilin Li, Ryan Luo, Tiantong Li, Xiang Lin, Ziyuan Liu, Zhiqi Li, Jie Ni, Qiang Ren, Pax Sun, Shiqian Su, Chenxin Tao, Bin Wang, Hellen Wang, Haonan Wang, James Wang, Jin Wang, Jojo Wang, Letian Wang, Shizun Wang, Weizhi Wang, Zixuan Wang, Jinfan Xu, Sen Xing, Chenyu Yang, Hai Ye, Jiaheng Yu, Yue Yu, Muyan Zhong, Tianchen Zhao, Xizhou Zhu, Yanpeng Zhou, Yifan Zhang, Zhi Zhu
cs.AI

要旨

我々はMiroThinker v1.0を発表する。これはツール拡張推論と情報探索能力を進化させるために設計されたオープンソースの研究エージェントである。従来のエージェントがモデルサイズやコンテキスト長のスケールアップのみを追求してきたのに対し、MiroThinkerはモデルレベルでのインタラクションスケーリングを探求し、エージェントと環境のより深く頻繁な相互作用を体系的に処理するようモデルを訓練する、第三の性能向上次元を開拓する。長い推論連鎖で劣化リスクのあるLLMのテスト時スケーリングとは異なり、インタラクティブスケーリングは環境フィードバックと外部情報取得を活用して誤りを修正し軌道を洗練させる。強化学習を通じて、モデルは効率的なインタラクションスケーリングを実現:256Kのコンテキストウィンドウでタスクあたり最大600回のツール呼び出しが可能となり、持続的なマルチターン推論と複雑な実世界研究ワークフローを可能にする。4つの代表的なベンチマーク(GAIA、HLE、BrowseComp、BrowseComp-ZH)において、72Bバリアントはそれぞれ最大81.9%、37.7%、47.1%、55.6%の精度を達成し、従来のオープンソースエージェントを凌駕しGPT-5-highなどの商用モデルに迫る性能を示した。分析により、MiroThinkerがインタラクションスケーリングから一貫して利益を得ていることが明らかになった:モデルがより深く頻繁なエージェント-環境相互作用を行うにつれ、研究性能が予測可能に向上し、インタラクション深度がモデルサイズやコンテキスト長と同様のスケーリング挙動を示すことを実証する。これらの発見は、モデル能力とコンテキストウィンドウを補完する、次世代オープン研究エージェント構築のための第三の重要次元としてインタラクションスケーリングを確立する。
English
We present MiroThinker v1.0, an open-source research agent designed to advance tool-augmented reasoning and information-seeking capabilities. Unlike previous agents that only scale up model size or context length, MiroThinker explores interaction scaling at the model level, systematically training the model to handle deeper and more frequent agent-environment interactions as a third dimension of performance improvement. Unlike LLM test-time scaling, which operates in isolation and risks degradation with longer reasoning chains, interactive scaling leverages environment feedback and external information acquisition to correct errors and refine trajectories. Through reinforcement learning, the model achieves efficient interaction scaling: with a 256K context window, it can perform up to 600 tool calls per task, enabling sustained multi-turn reasoning and complex real-world research workflows. Across four representative benchmarks-GAIA, HLE, BrowseComp, and BrowseComp-ZH-the 72B variant achieves up to 81.9%, 37.7%, 47.1%, and 55.6% accuracy respectively, surpassing previous open-source agents and approaching commercial counterparts such as GPT-5-high. Our analysis reveals that MiroThinker benefits from interactive scaling consistently: research performance improves predictably as the model engages in deeper and more frequent agent-environment interactions, demonstrating that interaction depth exhibits scaling behaviors analogous to model size and context length. These findings establish interaction scaling as a third critical dimension for building next-generation open research agents, complementing model capacity and context windows.
PDF1564December 1, 2025