ChatPaper.aiChatPaper

SciMaster: Hacia Agentes de IA Científicos de Propósito General, Parte I. X-Master como Base: ¿Podemos Liderar el Último Examen de la Humanidad?

SciMaster: Towards General-Purpose Scientific AI Agents, Part I. X-Master as Foundation: Can We Lead on Humanity's Last Exam?

July 7, 2025
Autores: Jingyi Chai, Shuo Tang, Rui Ye, Yuwen Du, Xinyu Zhu, Mengcheng Zhou, Yanfeng Wang, Weinan E, Yuzhi Zhang, Linfeng Zhang, Siheng Chen
cs.AI

Resumen

Los rápidos avances de los agentes de IA han avivado la ambición de largo plazo de aprovecharlos para acelerar el descubrimiento científico. Lograr este objetivo requiere una comprensión profunda de las fronteras del conocimiento humano. En este sentido, el Examen Final de la Humanidad (HLE, por sus siglas en inglés) proporciona un punto de referencia excepcionalmente desafiante para evaluar a los agentes de IA científicos. En este trabajo, nuestro objetivo es construir la arquitectura fundamental para agentes de propósito general y validar sus capacidades mediante un rendimiento líder en el HLE. Para lograrlo, presentamos X-Master, un agente de razonamiento aumentado con herramientas diseñado para emular a los investigadores humanos al interactuar de manera flexible con herramientas externas durante su proceso de razonamiento. Este agente, guiado por la conceptualización del código como un lenguaje de interacción, puede aprovechar de manera flexible las bibliotecas integradas de Python y nuestras herramientas personalizadas para mejorar el razonamiento. Además, escalamos sus capacidades a través de X-Masters, un flujo de trabajo de agentes dispersos y apilados que mejora sistemáticamente la amplitud y profundidad del razonamiento. Nuestra solución de código abierto, X-Masters, establece un nuevo récord de vanguardia en el HLE con una puntuación del 32,1%, superando a OpenAI y a Google Deep Research (26,6% y 26,9%) y convirtiéndose en el primero en superar el umbral del 30%. Este trabajo nos permite obtener una comprensión más profunda de la resolución de tareas complejas y acumular una experiencia valiosa que puede informar futuros avances, guiando el entrenamiento de modelos posteriores.
English
The rapid advancements of AI agents have ignited the long-held ambition of leveraging them to accelerate scientific discovery. Achieving this goal requires a deep understanding of the frontiers of human knowledge. As such, Humanity's Last Exam (HLE) provides an exceptionally challenging touchstone for evaluating scientific AI agents. In this work, we aim to construct the foundational architecture for general-purpose agents and validate the capabilities through leading performance on HLE. To achieve this, we introduce X-Master, a tool-augmented reasoning agent designed to emulate human researchers by interacting flexibly with external tools during its reasoning process. This agent, guided by the conceptualization of code as an interaction language, can flexibly leverage built-in Python libraries and our customized tools to augment the reasoning. We further scale its capabilities through X-Masters, a scattered-and-stacked agentic workflow that systematically enhances breadth and depth of reasoning. Our open-source solution, X-Masters, sets a new state-of-the-art record on HLE with a score of 32.1%, surpassing OpenAI's and Google's Deep Research (26.6% and 26.9%) and becoming the first to exceed the 30% threshold. This work allows us to gain a deeper understanding of complex task-solving and accumulates valuable experience that can inform future advancements, guiding subsequent model training.
PDF21July 11, 2025