ChatPaper.aiChatPaper

MiroThinker: Расширение границ производительности открытых исследовательских агентов за счет масштабирования модели, контекста и интерактивности

MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling

November 14, 2025
Авторы: MiroMind Team, Song Bai, Lidong Bing, Carson Chen, Guanzheng Chen, Yuntao Chen, Zhe Chen, Ziyi Chen, Jifeng Dai, Xuan Dong, Yue Deng, Yunjie Fu, Junqi Ge, Chenxia Han, Tammy Huang, Zhenhang Huang, Jerry Jiao, Shilei Jiang, Tianyu Jiao, Xiaoqi Jian, Lei Lei, Ruilin Li, Ryan Luo, Tiantong Li, Xiang Lin, Ziyuan Liu, Zhiqi Li, Jie Ni, Qiang Ren, Pax Sun, Shiqian Su, Chenxin Tao, Bin Wang, Hellen Wang, Haonan Wang, James Wang, Jin Wang, Jojo Wang, Letian Wang, Shizun Wang, Weizhi Wang, Zixuan Wang, Jinfan Xu, Sen Xing, Chenyu Yang, Hai Ye, Jiaheng Yu, Yue Yu, Muyan Zhong, Tianchen Zhao, Xizhou Zhu, Yanpeng Zhou, Yifan Zhang, Zhi Zhu
cs.AI

Аннотация

Мы представляем MiroThinker v1.0 — агента для исследовательских задач с открытым исходным кодом, разработанного для развития возможностей инструментально-расширенного мышления и поиска информации. В отличие от предыдущих агентов, которые лишь наращивали размер модели или длину контекста, MiroThinker исследует масштабирование взаимодействия на уровне модели, систематически обучая её обрабатывать более глубокие и частые взаимодействия агента со средой как третье измерение повышения производительности. В отличие от масштабирования LLM во время тестирования, которое работает изолированно и рискует деградировать при длинных цепочках рассуждений, интерактивное масштабирование использует обратную связь от среды и получение внешней информации для исправления ошибок и уточнения траекторий. Благодаря обучению с подкреплением модель достигает эффективного масштабирования взаимодействия: при окне контекста в 256K токенов она может выполнять до 600 вызовов инструментов на задачу, что позволяет осуществлять продолжительные многошаговые рассуждения и сложные рабочие процессы реальных исследований. На четырёх репрезентативных тестах — GAIA, HLE, BrowseComp и BrowseComp-ZH — вариант модели на 72B параметров демонстрирует точность до 81,9%, 37,7%, 47,1% и 55,6% соответственно, превосходя предыдущие агенты с открытым кодом и приближаясь к коммерческим аналогам, таким как GPT-5-high. Наш анализ показывает, что MiroThinker стабильно извлекает выгоду из интерактивного масштабирования: исследовательская производительность предсказуемо улучшается по мере углубления и учащения взаимодействий агента со средой, демонстрируя, что глубина взаимодействия проявляет свойства масштабирования, аналогичные размеру модели и длине контекста. Эти результаты устанавливают масштабирование взаимодействия в качестве третьего критически важного измерения для создания исследовательских агентов следующего поколения с открытым кодом, дополняя ёмкость модели и размер контекстного окна.
English
We present MiroThinker v1.0, an open-source research agent designed to advance tool-augmented reasoning and information-seeking capabilities. Unlike previous agents that only scale up model size or context length, MiroThinker explores interaction scaling at the model level, systematically training the model to handle deeper and more frequent agent-environment interactions as a third dimension of performance improvement. Unlike LLM test-time scaling, which operates in isolation and risks degradation with longer reasoning chains, interactive scaling leverages environment feedback and external information acquisition to correct errors and refine trajectories. Through reinforcement learning, the model achieves efficient interaction scaling: with a 256K context window, it can perform up to 600 tool calls per task, enabling sustained multi-turn reasoning and complex real-world research workflows. Across four representative benchmarks-GAIA, HLE, BrowseComp, and BrowseComp-ZH-the 72B variant achieves up to 81.9%, 37.7%, 47.1%, and 55.6% accuracy respectively, surpassing previous open-source agents and approaching commercial counterparts such as GPT-5-high. Our analysis reveals that MiroThinker benefits from interactive scaling consistently: research performance improves predictably as the model engages in deeper and more frequent agent-environment interactions, demonstrating that interaction depth exhibits scaling behaviors analogous to model size and context length. These findings establish interaction scaling as a third critical dimension for building next-generation open research agents, complementing model capacity and context windows.
PDF1564December 1, 2025