ChatPaper.aiChatPaper

MiroThinker: Impulsando los Límites de Rendimiento de los Agentes de Investigación de Código Abierto mediante Escalado de Modelos, Contexto e Interactividad

MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling

November 14, 2025
Autores: MiroMind Team, Song Bai, Lidong Bing, Carson Chen, Guanzheng Chen, Yuntao Chen, Zhe Chen, Ziyi Chen, Jifeng Dai, Xuan Dong, Yue Deng, Yunjie Fu, Junqi Ge, Chenxia Han, Tammy Huang, Zhenhang Huang, Jerry Jiao, Shilei Jiang, Tianyu Jiao, Xiaoqi Jian, Lei Lei, Ruilin Li, Ryan Luo, Tiantong Li, Xiang Lin, Ziyuan Liu, Zhiqi Li, Jie Ni, Qiang Ren, Pax Sun, Shiqian Su, Chenxin Tao, Bin Wang, Hellen Wang, Haonan Wang, James Wang, Jin Wang, Jojo Wang, Letian Wang, Shizun Wang, Weizhi Wang, Zixuan Wang, Jinfan Xu, Sen Xing, Chenyu Yang, Hai Ye, Jiaheng Yu, Yue Yu, Muyan Zhong, Tianchen Zhao, Xizhou Zhu, Yanpeng Zhou, Yifan Zhang, Zhi Zhu
cs.AI

Resumen

Presentamos MiroThinker v1.0, un agente de investigación de código abierto diseñado para impulsar las capacidades de razonamiento aumentado con herramientas y búsqueda de información. A diferencia de agentes anteriores que solo escalan el tamaño del modelo o la longitud del contexto, MiroThinker explora el escalado interactivo a nivel del modelo, entrenándolo sistemáticamente para manejar interacciones agente-entorno más profundas y frecuentes como una tercera dimensión de mejora del rendimiento. A diferencia del escalado en tiempo de prueba de los LLM, que opera de forma aislada y corre el riesgo de degradarse con cadenas de razonamiento más largas, el escalado interactivo aprovecha la retroalimentación del entorno y la adquisición de información externa para corregir errores y refinar trayectorias. Mediante aprendizaje por refuerzo, el modelo logra un escalado interactivo eficiente: con una ventana de contexto de 256K, puede realizar hasta 600 llamadas a herramientas por tarea, permitiendo razonamientos multiturno sostenidos y flujos de trabajo de investigación complejos en el mundo real. En cuatro benchmarks representativos (GAIA, HLE, BrowseComp y BrowseComp-ZH), la variante de 72B alcanza precisiones de hasta 81,9%, 37,7%, 47,1% y 55,6% respectivamente, superando a agentes de código abierto anteriores y acercándose a contrapartes comerciales como GPT-5-high. Nuestro análisis revela que MiroThinker se beneficia del escalado interactivo de manera consistente: el rendimiento en investigación mejora de forma predecible a medida que el modelo participa en interacciones agente-entorno más profundas y frecuentes, demostrando que la profundidad de interacción exhibe comportamientos de escalado análogos al tamaño del modelo y la longitud del contexto. Estos hallazgos establecen el escalado interactivo como una tercera dimensión crítica para construir la próxima generación de agentes de investigación abiertos, complementando la capacidad del modelo y las ventanas de contexto.
English
We present MiroThinker v1.0, an open-source research agent designed to advance tool-augmented reasoning and information-seeking capabilities. Unlike previous agents that only scale up model size or context length, MiroThinker explores interaction scaling at the model level, systematically training the model to handle deeper and more frequent agent-environment interactions as a third dimension of performance improvement. Unlike LLM test-time scaling, which operates in isolation and risks degradation with longer reasoning chains, interactive scaling leverages environment feedback and external information acquisition to correct errors and refine trajectories. Through reinforcement learning, the model achieves efficient interaction scaling: with a 256K context window, it can perform up to 600 tool calls per task, enabling sustained multi-turn reasoning and complex real-world research workflows. Across four representative benchmarks-GAIA, HLE, BrowseComp, and BrowseComp-ZH-the 72B variant achieves up to 81.9%, 37.7%, 47.1%, and 55.6% accuracy respectively, surpassing previous open-source agents and approaching commercial counterparts such as GPT-5-high. Our analysis reveals that MiroThinker benefits from interactive scaling consistently: research performance improves predictably as the model engages in deeper and more frequent agent-environment interactions, demonstrating that interaction depth exhibits scaling behaviors analogous to model size and context length. These findings establish interaction scaling as a third critical dimension for building next-generation open research agents, complementing model capacity and context windows.
PDF1564December 1, 2025