MiroThinker: 모델, 컨텍스트, 상호작용 확장을 통한 오픈소스 연구 에이전트의 성능 한계 확장
MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling
November 14, 2025
저자: MiroMind Team, Song Bai, Lidong Bing, Carson Chen, Guanzheng Chen, Yuntao Chen, Zhe Chen, Ziyi Chen, Jifeng Dai, Xuan Dong, Yue Deng, Yunjie Fu, Junqi Ge, Chenxia Han, Tammy Huang, Zhenhang Huang, Jerry Jiao, Shilei Jiang, Tianyu Jiao, Xiaoqi Jian, Lei Lei, Ruilin Li, Ryan Luo, Tiantong Li, Xiang Lin, Ziyuan Liu, Zhiqi Li, Jie Ni, Qiang Ren, Pax Sun, Shiqian Su, Chenxin Tao, Bin Wang, Hellen Wang, Haonan Wang, James Wang, Jin Wang, Jojo Wang, Letian Wang, Shizun Wang, Weizhi Wang, Zixuan Wang, Jinfan Xu, Sen Xing, Chenyu Yang, Hai Ye, Jiaheng Yu, Yue Yu, Muyan Zhong, Tianchen Zhao, Xizhou Zhu, Yanpeng Zhou, Yifan Zhang, Zhi Zhu
cs.AI
초록
MiroThinker v1.0을 소개합니다. 이는 도구 활용 추론 및 정보 탐색 능력을 발전시키기 위해 설계된 오픈소스 연구 에이전트입니다. 모델 크기나 컨텍스트 길이만 확장하는 기존 에이전트들과 달리, MiroThinker는 모델 수준의 상호작용 확장을 탐구하며, 성능 향상의 세 번째 차원으로서 더 깊고 빈번한 에이전트-환경 상호작용을 처리하도록 모델을 체계적으로 학습합니다. 독립적으로 운영되고 긴 추론 체인에서 성능 저하 위험이 있는 LLM 테스트 타임 확장과 달리, 상호작용 확장은 환경 피드백과 외부 정보 획득을 활용하여 오류를 수정하고 경로를 개선합니다. 강화 학습을 통해 모델은 효율적인 상호작용 확장을 달성합니다: 256K 컨텍스트 윈도우를 기준으로 태스크당 최대 600회의 도구 호출을 수행할 수 있어, 지속적인 다중 턴 추론과 복잡한 실제 연구 워크플로우를 가능하게 합니다. 4가지 대표 벤치마크(GAIA, HLE, BrowseComp, BrowseComp-ZH)에서 72B 변형은 각각 최대 81.9%, 37.7%, 47.1%, 55.6%의 정확도를 달성하여 기존 오픈소스 에이전트들을 능가하고 GPT-5-high와 같은 상용 대응제에 근접한 성능을 보입니다. 우리의 분석에 따르면, MiroThinker는 상호작용 확장으로부터 일관되게 이점을 얻습니다: 모델이 더 깊고 빈번한 에이전트-환경 상호작용을 수행함에 따라 연구 성능이 예측 가능하게 향상되며, 이는 상호작용 깊이가 모델 크기 및 컨텍스트 길이와 유사한 확장 법칙을 보임을 입증합니다. 이러한 발견들은 모델 용량과 컨텍스트 윈도우를 보완하는, 차세대 오픈 연구 에이전트 구축을 위한 세 번째 중요한 차원으로서 상호작용 확장의 중요성을 확립합니다.
English
We present MiroThinker v1.0, an open-source research agent designed to advance tool-augmented reasoning and information-seeking capabilities. Unlike previous agents that only scale up model size or context length, MiroThinker explores interaction scaling at the model level, systematically training the model to handle deeper and more frequent agent-environment interactions as a third dimension of performance improvement. Unlike LLM test-time scaling, which operates in isolation and risks degradation with longer reasoning chains, interactive scaling leverages environment feedback and external information acquisition to correct errors and refine trajectories. Through reinforcement learning, the model achieves efficient interaction scaling: with a 256K context window, it can perform up to 600 tool calls per task, enabling sustained multi-turn reasoning and complex real-world research workflows. Across four representative benchmarks-GAIA, HLE, BrowseComp, and BrowseComp-ZH-the 72B variant achieves up to 81.9%, 37.7%, 47.1%, and 55.6% accuracy respectively, surpassing previous open-source agents and approaching commercial counterparts such as GPT-5-high. Our analysis reveals that MiroThinker benefits from interactive scaling consistently: research performance improves predictably as the model engages in deeper and more frequent agent-environment interactions, demonstrating that interaction depth exhibits scaling behaviors analogous to model size and context length. These findings establish interaction scaling as a third critical dimension for building next-generation open research agents, complementing model capacity and context windows.