MiroThinker: Expandindo os Limites de Desempenho de Agentes de Pesquisa de Código Aberto por meio da Escala de Modelo, Contexto e Interatividade
MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling
November 14, 2025
Autores: MiroMind Team, Song Bai, Lidong Bing, Carson Chen, Guanzheng Chen, Yuntao Chen, Zhe Chen, Ziyi Chen, Jifeng Dai, Xuan Dong, Yue Deng, Yunjie Fu, Junqi Ge, Chenxia Han, Tammy Huang, Zhenhang Huang, Jerry Jiao, Shilei Jiang, Tianyu Jiao, Xiaoqi Jian, Lei Lei, Ruilin Li, Ryan Luo, Tiantong Li, Xiang Lin, Ziyuan Liu, Zhiqi Li, Jie Ni, Qiang Ren, Pax Sun, Shiqian Su, Chenxin Tao, Bin Wang, Hellen Wang, Haonan Wang, James Wang, Jin Wang, Jojo Wang, Letian Wang, Shizun Wang, Weizhi Wang, Zixuan Wang, Jinfan Xu, Sen Xing, Chenyu Yang, Hai Ye, Jiaheng Yu, Yue Yu, Muyan Zhong, Tianchen Zhao, Xizhou Zhu, Yanpeng Zhou, Yifan Zhang, Zhi Zhu
cs.AI
Resumo
Apresentamos o MiroThinker v1.0, um agente de pesquisa de código aberto projetado para avançar as capacidades de raciocínio aumentado por ferramentas e busca de informação. Diferente de agentes anteriores que apenas aumentam o tamanho do modelo ou o comprimento do contexto, o MiroThinker explora a escala de interação no nível do modelo, treinando-o sistematicamente para lidar com interações agente-ambiente mais profundas e frequentes como uma terceira dimensão de melhoria de desempenho. Ao contrário da escala em tempo de teste de LLMs, que opera de forma isolada e corre o risco de degradação com cadeias de raciocínio mais longas, a escala interativa aproveita o feedback do ambiente e a aquisição de informação externa para corrigir erros e refinar trajetórias. Por meio de aprendizado por reforço, o modelo alcança uma escala de interação eficiente: com uma janela de contexto de 256K, ele pode realizar até 600 chamadas de ferramentas por tarefa, permitindo raciocínio sustentado de múltiplos turnos e fluxos de trabalho de pesquisa complexos do mundo real. Através de quatro benchmarks representativos - GAIA, HLE, BrowseComp e BrowseComp-ZH - a variante de 72B atinge até 81,9%, 37,7%, 47,1% e 55,6% de precisão, respectivamente, superando agentes de código aberto anteriores e se aproximando de contrapartes comerciais como o GPT-4. Nossa análise revela que o MiroThinker beneficia-se consistentemente da escala interativa: o desempenho em pesquisa melhora de forma previsível à medida que o modelo se envolve em interações agente-ambiente mais profundas e frequentes, demonstrando que a profundidade de interação exibe comportamentos de escala análogos ao tamanho do modelo e ao comprimento do contexto. Essas descobertas estabelecem a escala de interação como uma terceira dimensão crítica para a construção de agentes de pesquisa abertos de próxima geração, complementando a capacidade do modelo e as janelas de contexto.
English
We present MiroThinker v1.0, an open-source research agent designed to advance tool-augmented reasoning and information-seeking capabilities. Unlike previous agents that only scale up model size or context length, MiroThinker explores interaction scaling at the model level, systematically training the model to handle deeper and more frequent agent-environment interactions as a third dimension of performance improvement. Unlike LLM test-time scaling, which operates in isolation and risks degradation with longer reasoning chains, interactive scaling leverages environment feedback and external information acquisition to correct errors and refine trajectories. Through reinforcement learning, the model achieves efficient interaction scaling: with a 256K context window, it can perform up to 600 tool calls per task, enabling sustained multi-turn reasoning and complex real-world research workflows. Across four representative benchmarks-GAIA, HLE, BrowseComp, and BrowseComp-ZH-the 72B variant achieves up to 81.9%, 37.7%, 47.1%, and 55.6% accuracy respectively, surpassing previous open-source agents and approaching commercial counterparts such as GPT-5-high. Our analysis reveals that MiroThinker benefits from interactive scaling consistently: research performance improves predictably as the model engages in deeper and more frequent agent-environment interactions, demonstrating that interaction depth exhibits scaling behaviors analogous to model size and context length. These findings establish interaction scaling as a third critical dimension for building next-generation open research agents, complementing model capacity and context windows.