AstaBench: Strenge benchmarken van AI-agenten met een wetenschappelijke onderzoekssuite
AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite
October 24, 2025
Auteurs: Jonathan Bragg, Mike D'Arcy, Nishant Balepur, Dan Bareket, Bhavana Dalvi, Sergey Feldman, Dany Haddad, Jena D. Hwang, Peter Jansen, Varsha Kishore, Bodhisattwa Prasad Majumder, Aakanksha Naik, Sigal Rahamimov, Kyle Richardson, Amanpreet Singh, Harshit Surana, Aryeh Tiktinsky, Rosni Vasu, Guy Wiener, Chloe Anastasiades, Stefan Candra, Jason Dunkelberger, Dan Emery, Rob Evans, Malachi Hamada, Regan Huff, Rodney Kinney, Matt Latzke, Jaron Lochner, Ruben Lozano-Aguilera, Cecile Nguyen, Smita Rao, Amber Tanaka, Brooke Vlahos, Peter Clark, Doug Downey, Yoav Goldberg, Ashish Sabharwal, Daniel S. Weld
cs.AI
Samenvatting
AI-agenten hebben het potentieel om de wetenschappelijke productiviteit te revolutionariseren door het automatiseren van literatuuronderzoeken, het repliceren van experimenten, het analyseren van gegevens en zelfs het voorstellen van nieuwe onderzoeksrichtingen; er bestaan inmiddels talloze van dergelijke agenten, variërend van algemene "deep research"-systemen tot gespecialiseerde, wetenschapsspecifieke agenten zoals AI Scientist en AIGS. Een rigoureuze evaluatie van deze agenten is cruciaal voor vooruitgang. Toch schieten bestaande benchmarks op verschillende fronten tekort: ze (1) bieden geen holistische, op productiegebruik afgestemde maatstaven voor realistische use cases zoals wetenschappelijk onderzoek; (2) missen reproduceerbare agenttools die noodzakelijk zijn voor een gecontroleerde vergelijking van kerncapaciteiten van agenten; (3) houden geen rekening met verstorende variabelen zoals modelkosten en tooltoegang; (4) bieden geen gestandaardiseerde interfaces voor snelle prototyping en evaluatie van agenten; en (5) ontberen uitgebreide baseline-agenten die nodig zijn om echte vooruitgang te identificeren. Als antwoord hierop definiëren we principes en tools voor het rigoureuzer benchmarken van agenten. Hiermee presenteren we AstaBench, een suite die de eerste holistische meting biedt van het vermogen van agenten om wetenschappelijk onderzoek uit te voeren. Deze omvat 2400+ problemen die het volledige wetenschappelijke ontdekkingsproces en meerdere wetenschappelijke domeinen bestrijken, inclusief veel problemen geïnspireerd op daadwerkelijke gebruikersverzoeken aan geïmplementeerde Asta-agenten. Onze suite wordt geleverd met de eerste wetenschappelijke onderzoeksomgeving met productieklasse zoektools die gecontroleerde, reproduceerbare evaluatie mogelijk maken, waardoor verstorende factoren beter in kaart worden gebracht. Daarnaast bieden we een uitgebreide suite van negen wetenschappelijk geoptimaliseerde klassen van Asta-agenten en talloze baselines. Onze uitgebreide evaluatie van 57 agenten verspreid over 22 agentklassen onthult verschillende interessante bevindingen, waarvan de belangrijkste is dat, ondanks betekenisvolle vooruitgang op bepaalde afzonderlijke aspecten, AI nog ver verwijderd is van het oplossen van de uitdaging van wetenschappelijke onderzoeksassistentie.
English
AI agents hold the potential to revolutionize scientific productivity by
automating literature reviews, replicating experiments, analyzing data, and
even proposing new directions of inquiry; indeed, there are now many such
agents, ranging from general-purpose "deep research" systems to specialized
science-specific agents, such as AI Scientist and AIGS. Rigorous evaluation of
these agents is critical for progress. Yet existing benchmarks fall short on
several fronts: they (1) fail to provide holistic, product-informed measures of
real-world use cases such as science research; (2) lack reproducible agent
tools necessary for a controlled comparison of core agentic capabilities; (3)
do not account for confounding variables such as model cost and tool access;
(4) do not provide standardized interfaces for quick agent prototyping and
evaluation; and (5) lack comprehensive baseline agents necessary to identify
true advances. In response, we define principles and tooling for more
rigorously benchmarking agents. Using these, we present AstaBench, a suite that
provides the first holistic measure of agentic ability to perform scientific
research, comprising 2400+ problems spanning the entire scientific discovery
process and multiple scientific domains, and including many problems inspired
by actual user requests to deployed Asta agents. Our suite comes with the first
scientific research environment with production-grade search tools that enable
controlled, reproducible evaluation, better accounting for confounders.
Alongside, we provide a comprehensive suite of nine science-optimized classes
of Asta agents and numerous baselines. Our extensive evaluation of 57 agents
across 22 agent classes reveals several interesting findings, most importantly
that despite meaningful progress on certain individual aspects, AI remains far
from solving the challenge of science research assistance.