Evaluación comparativa de agentes de IA para abordar desafíos científicos a través de escalas

Resumen

Los agentes de inteligencia artificial se están desarrollando cada vez más para acelerar el descubrimiento científico, aunque sus capacidades prácticas en entornos reales de investigación siguen siendo poco comprendidas. Los puntos de referencia existentes para agentes de IA rara vez capturan la complejidad, heterogeneidad y el razonamiento extendido que requiere el trabajo científico, mientras que los puntos de referencia para tareas científicas a menudo reducen la investigación a problemas estáticos y directos, proporcionando un soporte limitado para la evaluación interactiva. Aquí presentamos SciAgentArena, un punto de referencia sistemático para evaluar agentes de IA en escenarios reales de investigación científica, extraídos de necesidades emergentes en múltiples dominios. SciAgentArena comprende aproximadamente 200 tareas con verificación paso a paso y un entorno interactivo e independiente del agente para evaluar diversos agentes de IA. Utilizando este punto de referencia, encontramos que los agentes actuales pueden contribuir eficazmente a flujos de trabajo de análisis de datos bien especificados, particularmente cuando la estructura de la tarea y los criterios de evaluación son claros. Sin embargo, su rendimiento sigue siendo desigual en distintos contextos científicos: los agentes tienen dificultades para generar ideas genuinamente novedosas, mantener una exploración autodirigida y formular soluciones robustas para preguntas de investigación abiertas. Además, caracterizamos modos comunes de fallo entre los agentes e identificamos oportunidades para mejorar su fiabilidad, autonomía y razonamiento científico. En conjunto, SciAgentArena proporciona un marco práctico para medir el progreso en agentes de IA para la ciencia y para guiar el diseño de futuros agentes capaces de abordar desafíos científicos complejos. El código completo, las tareas y los conjuntos de datos se pueden acceder a través de este enlace: https://sciagentarena.github.io/.

English

AI agents are increasingly being developed to accelerate scientific discovery, yet their practical capabilities in real research settings remain poorly understood. Existing benchmarks for AI agents rarely capture the complexity, heterogeneity, and extended reasoning required by scientific work, whereas benchmarks for scientific tasks often reduce research to static, direct problems and provide limited support for interactive evaluation. Here, we introduce SciAgentArena, a systematic benchmark for evaluating AI agents in real-world scientific research scenarios drawn from emerging needs across multiple domains. SciAgentArena comprises approximately 200 tasks with stepwise verification and an interactive, agent-agnostic environment for assessing diverse AI agents. Using this benchmark, we find that current agents can contribute effectively to well-specified data-analysis workflows, particularly when the task structure and evaluation criteria are clear. However, their performance remains uneven across scientific contexts: agents struggle to generate genuinely novel insights, sustain self-directed exploration, and formulate robust solutions for open-ended research questions. We further characterize common failure modes across agents and identify opportunities for improving their reliability, autonomy, and scientific reasoning. Together, SciAgentArena provides a practical framework for measuring progress in AI agents for science and for guiding the design of future agents capable of addressing complex scientific challenges. Full codes, tasks, and datasets can be accessed via this link: https://sciagentarena.github.io/.