AstaBench : Évaluation rigoureuse des agents d'IA avec une suite de recherche scientifique
AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite
October 24, 2025
papers.authors: Jonathan Bragg, Mike D'Arcy, Nishant Balepur, Dan Bareket, Bhavana Dalvi, Sergey Feldman, Dany Haddad, Jena D. Hwang, Peter Jansen, Varsha Kishore, Bodhisattwa Prasad Majumder, Aakanksha Naik, Sigal Rahamimov, Kyle Richardson, Amanpreet Singh, Harshit Surana, Aryeh Tiktinsky, Rosni Vasu, Guy Wiener, Chloe Anastasiades, Stefan Candra, Jason Dunkelberger, Dan Emery, Rob Evans, Malachi Hamada, Regan Huff, Rodney Kinney, Matt Latzke, Jaron Lochner, Ruben Lozano-Aguilera, Cecile Nguyen, Smita Rao, Amber Tanaka, Brooke Vlahos, Peter Clark, Doug Downey, Yoav Goldberg, Ashish Sabharwal, Daniel S. Weld
cs.AI
papers.abstract
Les agents IA détiennent le potentiel de révolutionner la productivité scientifique en automatisant les revues de littérature, en répliquant les expériences, en analysant les données et même en proposant de nouvelles pistes de recherche ; il existe d'ailleurs aujourd'hui de nombreux agents de ce type, allant des systèmes polyvalents de « recherche approfondie » à des agents spécialisés dans les sciences, tels qu'AI Scientist et AIGS. L'évaluation rigoureuse de ces agents est cruciale pour progresser. Pourtant, les benchmarks existants présentent plusieurs lacunes : ils (1) ne fournissent pas de mesures holistiques et orientées produit des cas d'usage réels comme la recherche scientifique ; (2) manquent d'outils reproductibles pour agents, nécessaires à une comparaison contrôlée des capacités agentives fondamentales ; (3) ne tiennent pas compte de variables confusionnelles telles que le coût des modèles et l'accès aux outils ; (4) n'offrent pas d'interfaces standardisées pour le prototypage et l'évaluation rapides des agents ; et (5) ne disposent pas d'agents de référence complets permettant d'identifier les véritables avancées. En réponse, nous définissons des principes et des outils pour benchmarker les agents de manière plus rigoureuse. Sur cette base, nous présentons AstaBench, une suite qui fournit la première mesure holistique de la capacité agentive à mener des recherches scientifiques, comprenant plus de 2400 problèmes couvrant l'intégralité du processus de découverte scientifique et plusieurs domaines scientifiques, et incluant de nombreux problèmes inspirés de requêtes réelles d'utilisateurs aux agents Asta déployés. Notre suite s'accompagne du premier environnement de recherche scientifique avec des outils de recherche de qualité production permettant une évaluation contrôlée et reproductible, tenant mieux compte des facteurs confusionnels. Parallèlement, nous fournissons une gamme complète de neuf classes d'agents Asta optimisées pour la science et de nombreuses références. Notre évaluation approfondie de 57 agents répartis dans 22 classes d'agents révèle plusieurs résultats intéressants, le plus important étant que malgré des progrès significatifs sur certains aspects individuels, l'IA est encore loin de résoudre le défi de l'assistance à la recherche scientifique.
English
AI agents hold the potential to revolutionize scientific productivity by
automating literature reviews, replicating experiments, analyzing data, and
even proposing new directions of inquiry; indeed, there are now many such
agents, ranging from general-purpose "deep research" systems to specialized
science-specific agents, such as AI Scientist and AIGS. Rigorous evaluation of
these agents is critical for progress. Yet existing benchmarks fall short on
several fronts: they (1) fail to provide holistic, product-informed measures of
real-world use cases such as science research; (2) lack reproducible agent
tools necessary for a controlled comparison of core agentic capabilities; (3)
do not account for confounding variables such as model cost and tool access;
(4) do not provide standardized interfaces for quick agent prototyping and
evaluation; and (5) lack comprehensive baseline agents necessary to identify
true advances. In response, we define principles and tooling for more
rigorously benchmarking agents. Using these, we present AstaBench, a suite that
provides the first holistic measure of agentic ability to perform scientific
research, comprising 2400+ problems spanning the entire scientific discovery
process and multiple scientific domains, and including many problems inspired
by actual user requests to deployed Asta agents. Our suite comes with the first
scientific research environment with production-grade search tools that enable
controlled, reproducible evaluation, better accounting for confounders.
Alongside, we provide a comprehensive suite of nine science-optimized classes
of Asta agents and numerous baselines. Our extensive evaluation of 57 agents
across 22 agent classes reveals several interesting findings, most importantly
that despite meaningful progress on certain individual aspects, AI remains far
from solving the challenge of science research assistance.