ChatPaper.aiChatPaper

AstaBench: Evaluación Rigurosa de Agentes de IA con un Conjunto de Investigación Científica

AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite

October 24, 2025
Autores: Jonathan Bragg, Mike D'Arcy, Nishant Balepur, Dan Bareket, Bhavana Dalvi, Sergey Feldman, Dany Haddad, Jena D. Hwang, Peter Jansen, Varsha Kishore, Bodhisattwa Prasad Majumder, Aakanksha Naik, Sigal Rahamimov, Kyle Richardson, Amanpreet Singh, Harshit Surana, Aryeh Tiktinsky, Rosni Vasu, Guy Wiener, Chloe Anastasiades, Stefan Candra, Jason Dunkelberger, Dan Emery, Rob Evans, Malachi Hamada, Regan Huff, Rodney Kinney, Matt Latzke, Jaron Lochner, Ruben Lozano-Aguilera, Cecile Nguyen, Smita Rao, Amber Tanaka, Brooke Vlahos, Peter Clark, Doug Downey, Yoav Goldberg, Ashish Sabharwal, Daniel S. Weld
cs.AI

Resumen

Los agentes de IA tienen el potencial de revolucionar la productividad científica mediante la automatización de revisiones bibliográficas, la replicación de experimentos, el análisis de datos e incluso la propuesta de nuevas líneas de investigación; de hecho, actualmente existen numerosos agentes de este tipo, que abarcan desde sistemas generalistas de "investigación profunda" hasta agentes especializados en ciencia, como AI Scientist y AIGS. La evaluación rigurosa de estos agentes es crucial para el progreso. Sin embargo, los puntos de referencia existentes presentan deficiencias en varios frentes: (1) no ofrecen mediciones holísticas e informadas por el producto de casos de uso del mundo real, como la investigación científica; (2) carecen de herramientas de agente reproducibles necesarias para una comparación controlada de las capacidades agentivas centrales; (3) no tienen en cuenta variables de confusión como el coste del modelo y el acceso a herramientas; (4) no proporcionan interfaces estandarizadas para la prototipación y evaluación rápida de agentes; y (5) carecen de agentes de referencia integrales necesarios para identificar avances reales. En respuesta, definimos principios y herramientas para evaluar agentes de manera más rigurosa. Utilizándolos, presentamos AstaBench, un conjunto que proporciona la primera medida holística de la capacidad agentiva para realizar investigación científica, comprendiendo más de 2400 problemas que abarcan todo el proceso de descubrimiento científico y múltiples dominios científicos, e incluyendo muchos problemas inspirados en solicitudes reales de usuarios a agentes Asta desplegados. Nuestro conjunto incluye el primer entorno de investigación científica con herramientas de búsqueda de grado productivo que permiten una evaluación controlada y reproducible, teniendo mejor en cuenta las variables de confusión. Adicionalmente, proporcionamos un conjunto integral de nueve clases optimizadas para ciencia de agentes Asta y numerosas referencias. Nuestra evaluación exhaustiva de 57 agentes en 22 clases de agentes revela varios hallazgos interesantes, siendo el más importante que, a pesar de los progresos significativos en ciertos aspectos individuales, la IA aún está lejos de resolver el desafío de la asistencia en investigación científica.
English
AI agents hold the potential to revolutionize scientific productivity by automating literature reviews, replicating experiments, analyzing data, and even proposing new directions of inquiry; indeed, there are now many such agents, ranging from general-purpose "deep research" systems to specialized science-specific agents, such as AI Scientist and AIGS. Rigorous evaluation of these agents is critical for progress. Yet existing benchmarks fall short on several fronts: they (1) fail to provide holistic, product-informed measures of real-world use cases such as science research; (2) lack reproducible agent tools necessary for a controlled comparison of core agentic capabilities; (3) do not account for confounding variables such as model cost and tool access; (4) do not provide standardized interfaces for quick agent prototyping and evaluation; and (5) lack comprehensive baseline agents necessary to identify true advances. In response, we define principles and tooling for more rigorously benchmarking agents. Using these, we present AstaBench, a suite that provides the first holistic measure of agentic ability to perform scientific research, comprising 2400+ problems spanning the entire scientific discovery process and multiple scientific domains, and including many problems inspired by actual user requests to deployed Asta agents. Our suite comes with the first scientific research environment with production-grade search tools that enable controlled, reproducible evaluation, better accounting for confounders. Alongside, we provide a comprehensive suite of nine science-optimized classes of Asta agents and numerous baselines. Our extensive evaluation of 57 agents across 22 agent classes reveals several interesting findings, most importantly that despite meaningful progress on certain individual aspects, AI remains far from solving the challenge of science research assistance.
PDF31December 17, 2025