SciMaster: Hacia Agentes de IA Científicos de Propósito General, Parte I. X-Master como Base: ¿Podemos Liderar el Último Examen de la Humanidad?
SciMaster: Towards General-Purpose Scientific AI Agents, Part I. X-Master as Foundation: Can We Lead on Humanity's Last Exam?
July 7, 2025
Autores: Jingyi Chai, Shuo Tang, Rui Ye, Yuwen Du, Xinyu Zhu, Mengcheng Zhou, Yanfeng Wang, Weinan E, Yuzhi Zhang, Linfeng Zhang, Siheng Chen
cs.AI
Resumen
Los rápidos avances de los agentes de IA han avivado la ambición de largo plazo de aprovecharlos para acelerar el descubrimiento científico. Lograr este objetivo requiere una comprensión profunda de las fronteras del conocimiento humano. En este sentido, el Examen Final de la Humanidad (HLE, por sus siglas en inglés) proporciona un punto de referencia excepcionalmente desafiante para evaluar a los agentes de IA científicos. En este trabajo, nuestro objetivo es construir la arquitectura fundamental para agentes de propósito general y validar sus capacidades mediante un rendimiento líder en el HLE. Para lograrlo, presentamos X-Master, un agente de razonamiento aumentado con herramientas diseñado para emular a los investigadores humanos al interactuar de manera flexible con herramientas externas durante su proceso de razonamiento. Este agente, guiado por la conceptualización del código como un lenguaje de interacción, puede aprovechar de manera flexible las bibliotecas integradas de Python y nuestras herramientas personalizadas para mejorar el razonamiento. Además, escalamos sus capacidades a través de X-Masters, un flujo de trabajo de agentes dispersos y apilados que mejora sistemáticamente la amplitud y profundidad del razonamiento. Nuestra solución de código abierto, X-Masters, establece un nuevo récord de vanguardia en el HLE con una puntuación del 32,1%, superando a OpenAI y a Google Deep Research (26,6% y 26,9%) y convirtiéndose en el primero en superar el umbral del 30%. Este trabajo nos permite obtener una comprensión más profunda de la resolución de tareas complejas y acumular una experiencia valiosa que puede informar futuros avances, guiando el entrenamiento de modelos posteriores.
English
The rapid advancements of AI agents have ignited the long-held ambition of
leveraging them to accelerate scientific discovery. Achieving this goal
requires a deep understanding of the frontiers of human knowledge. As such,
Humanity's Last Exam (HLE) provides an exceptionally challenging touchstone for
evaluating scientific AI agents. In this work, we aim to construct the
foundational architecture for general-purpose agents and validate the
capabilities through leading performance on HLE. To achieve this, we introduce
X-Master, a tool-augmented reasoning agent designed to emulate human
researchers by interacting flexibly with external tools during its reasoning
process. This agent, guided by the conceptualization of code as an interaction
language, can flexibly leverage built-in Python libraries and our customized
tools to augment the reasoning. We further scale its capabilities through
X-Masters, a scattered-and-stacked agentic workflow that systematically
enhances breadth and depth of reasoning. Our open-source solution, X-Masters,
sets a new state-of-the-art record on HLE with a score of 32.1%, surpassing
OpenAI's and Google's Deep Research (26.6% and 26.9%) and becoming the first to
exceed the 30% threshold. This work allows us to gain a deeper understanding of
complex task-solving and accumulates valuable experience that can inform future
advancements, guiding subsequent model training.