AstaBench: Strenge Bewertung von KI-Agenten mit einer wissenschaftlichen Forschungsumgebung
AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite
October 24, 2025
papers.authors: Jonathan Bragg, Mike D'Arcy, Nishant Balepur, Dan Bareket, Bhavana Dalvi, Sergey Feldman, Dany Haddad, Jena D. Hwang, Peter Jansen, Varsha Kishore, Bodhisattwa Prasad Majumder, Aakanksha Naik, Sigal Rahamimov, Kyle Richardson, Amanpreet Singh, Harshit Surana, Aryeh Tiktinsky, Rosni Vasu, Guy Wiener, Chloe Anastasiades, Stefan Candra, Jason Dunkelberger, Dan Emery, Rob Evans, Malachi Hamada, Regan Huff, Rodney Kinney, Matt Latzke, Jaron Lochner, Ruben Lozano-Aguilera, Cecile Nguyen, Smita Rao, Amber Tanaka, Brooke Vlahos, Peter Clark, Doug Downey, Yoav Goldberg, Ashish Sabharwal, Daniel S. Weld
cs.AI
papers.abstract
KI-Agenten haben das Potenzial, die wissenschaftliche Produktivität zu revolutionieren, indem sie Literaturrecherchen automatisieren, Experimente replizieren, Daten analysieren und sogar neue Forschungsrichtungen vorschlagen; tatsächlich gibt es bereits viele solcher Agenten, von allgemeinen "Deep-Research"-Systemen bis hin zu spezialisierten, wissenschaftsspezifischen Agenten wie AI Scientist und AIGS. Eine rigorose Evaluierung dieser Agenten ist für den Fortschritt entscheidend. Doch bestehende Benchmarks weisen mehrere Mängel auf: Sie (1) bieten keine ganzheitlichen, praxisnahen Messgrößen für reale Anwendungsfälle wie wissenschaftliche Forschung; (2) es fehlen ihnen reproduzierbare Agenten-Werkzeuge, die für einen kontrollierten Vergleich der Kernfähigkeiten von Agenten notwendig sind; (3) sie berücksichtigen keine Störvariablen wie Modellkosten und Werkzeugzugriff; (4) sie bieten keine standardisierten Schnittstellen für schnelles Prototyping und Evaluierung von Agenten; und (5) es mangelt ihnen an umfassenden Baseline-Agenten, die notwendig sind, um echte Fortschritte zu identifizieren. Als Antwort darauf definieren wir Prinzipien und Werkzeuge für eine rigorosere Benchmarking von Agenten. Unter Verwendung dieser stellen wir AstaBench vor, eine Suite, die erstmals eine ganzheitliche Messgröße für die Fähigkeit von Agenten zur Durchführung wissenschaftlicher Forschung bietet. Sie umfasst 2400+ Aufgaben, die den gesamten wissenschaftlichen Entdeckungsprozess und multiple wissenschaftliche Domänen abdecken, und beinhaltet viele Aufgaben, die von tatsächlichen Nutzeranfragen an eingesetzte Asta-Agenten inspiriert sind. Unsere Suite wird ergänzt durch die erste wissenschaftliche Forschungsumgebung mit produktionsreifen Suchwerkzeugen, die eine kontrollierte, reproduzierbare Evaluierung ermöglicht und Störvariablen besser berücksichtigt. Zusätzlich bieten wir eine umfassende Suite von neun wissenschaftlich optimierten Klassen von Asta-Agenten und zahlreiche Baselines. Unsere umfangreiche Evaluierung von 57 Agenten aus 22 Agentenklassen ergibt mehrere interessante Erkenntnisse, vor allem, dass KI trotz bedeutender Fortschritte in bestimmten Einzelaspekten noch weit davon entfernt ist, die Herausforderung der wissenschaftlichen Forschungsunterstützung zu lösen.
English
AI agents hold the potential to revolutionize scientific productivity by
automating literature reviews, replicating experiments, analyzing data, and
even proposing new directions of inquiry; indeed, there are now many such
agents, ranging from general-purpose "deep research" systems to specialized
science-specific agents, such as AI Scientist and AIGS. Rigorous evaluation of
these agents is critical for progress. Yet existing benchmarks fall short on
several fronts: they (1) fail to provide holistic, product-informed measures of
real-world use cases such as science research; (2) lack reproducible agent
tools necessary for a controlled comparison of core agentic capabilities; (3)
do not account for confounding variables such as model cost and tool access;
(4) do not provide standardized interfaces for quick agent prototyping and
evaluation; and (5) lack comprehensive baseline agents necessary to identify
true advances. In response, we define principles and tooling for more
rigorously benchmarking agents. Using these, we present AstaBench, a suite that
provides the first holistic measure of agentic ability to perform scientific
research, comprising 2400+ problems spanning the entire scientific discovery
process and multiple scientific domains, and including many problems inspired
by actual user requests to deployed Asta agents. Our suite comes with the first
scientific research environment with production-grade search tools that enable
controlled, reproducible evaluation, better accounting for confounders.
Alongside, we provide a comprehensive suite of nine science-optimized classes
of Asta agents and numerous baselines. Our extensive evaluation of 57 agents
across 22 agent classes reveals several interesting findings, most importantly
that despite meaningful progress on certain individual aspects, AI remains far
from solving the challenge of science research assistance.