AstaBench: Benchmarking Rigoroso degli Agenti IA con una Suite di Ricerca Scientifica
AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite
October 24, 2025
Autori: Jonathan Bragg, Mike D'Arcy, Nishant Balepur, Dan Bareket, Bhavana Dalvi, Sergey Feldman, Dany Haddad, Jena D. Hwang, Peter Jansen, Varsha Kishore, Bodhisattwa Prasad Majumder, Aakanksha Naik, Sigal Rahamimov, Kyle Richardson, Amanpreet Singh, Harshit Surana, Aryeh Tiktinsky, Rosni Vasu, Guy Wiener, Chloe Anastasiades, Stefan Candra, Jason Dunkelberger, Dan Emery, Rob Evans, Malachi Hamada, Regan Huff, Rodney Kinney, Matt Latzke, Jaron Lochner, Ruben Lozano-Aguilera, Cecile Nguyen, Smita Rao, Amber Tanaka, Brooke Vlahos, Peter Clark, Doug Downey, Yoav Goldberg, Ashish Sabharwal, Daniel S. Weld
cs.AI
Abstract
Gli agenti di intelligenza artificiale hanno il potenziale di rivoluzionare la produttività scientifica automatizzando le revisioni della letteratura, replicando esperimenti, analizzando dati e persino proponendo nuove direzioni di indagine; esistono infatti numerosi agenti di questo tipo, che spaziano da sistemi generici di "ricerca approfondita" ad agenti specializzati per la scienza, come AI Scientist e AIGS. Una valutazione rigorosa di questi agenti è fondamentale per il progresso. Tuttavia, i benchmark esistenti presentano diverse carenze: (1) non forniscono misure olistiche e informate al prodotto dei casi d'uso reali come la ricerca scientifica; (2) mancano degli strumenti riproducibili necessari per un confronto controllato delle capacità agentiche fondamentali; (3) non tengono conto di variabili confondenti come il costo dei modelli e l'accesso agli strumenti; (4) non offrono interfacce standardizzate per la prototipazione e valutazione rapida degli agenti; (5) sono privi di agenti baseline completi necessari per identificare i veri progressi. In risposta, definiamo principi e strumenti per benchmark più rigorosi degli agenti. Utilizzandoli, presentiamo AstaBench, una suite che fornisce la prima misura olistica della capacità agentica di condurre ricerca scientifica, comprendendo oltre 2400 problemi che coprono l'intero processo di scoperta scientifica e molteplici domini scientifici, inclusi problemi ispirati a richieste effettive di utenti ad agenti Asta già implementati. La nostra suite include il primo ambiente di ricerca scientifica con strumenti di ricerca di livello produttivo che consentono una valutazione controllata e riproducibile, tenendo meglio conto dei fattori confondenti. Insieme, forniamo un insieme completo di nove classi di agenti Asta ottimizzati per la scienza e numerose baseline. La nostra valutazione estensiva di 57 agenti attraverso 22 classi rivela diversi risultati interessanti, il più importante dei quali è che, nonostante progressi significativi in alcuni aspetti specifici, l'IA è ancora lontana dal risolvere la sfida dell'assistenza alla ricerca scientifica.
English
AI agents hold the potential to revolutionize scientific productivity by
automating literature reviews, replicating experiments, analyzing data, and
even proposing new directions of inquiry; indeed, there are now many such
agents, ranging from general-purpose "deep research" systems to specialized
science-specific agents, such as AI Scientist and AIGS. Rigorous evaluation of
these agents is critical for progress. Yet existing benchmarks fall short on
several fronts: they (1) fail to provide holistic, product-informed measures of
real-world use cases such as science research; (2) lack reproducible agent
tools necessary for a controlled comparison of core agentic capabilities; (3)
do not account for confounding variables such as model cost and tool access;
(4) do not provide standardized interfaces for quick agent prototyping and
evaluation; and (5) lack comprehensive baseline agents necessary to identify
true advances. In response, we define principles and tooling for more
rigorously benchmarking agents. Using these, we present AstaBench, a suite that
provides the first holistic measure of agentic ability to perform scientific
research, comprising 2400+ problems spanning the entire scientific discovery
process and multiple scientific domains, and including many problems inspired
by actual user requests to deployed Asta agents. Our suite comes with the first
scientific research environment with production-grade search tools that enable
controlled, reproducible evaluation, better accounting for confounders.
Alongside, we provide a comprehensive suite of nine science-optimized classes
of Asta agents and numerous baselines. Our extensive evaluation of 57 agents
across 22 agent classes reveals several interesting findings, most importantly
that despite meaningful progress on certain individual aspects, AI remains far
from solving the challenge of science research assistance.