ChatPaper.aiChatPaper

AstaBench:科学研究スイートによるAIエージェントの厳密なベンチマーキング

AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite

October 24, 2025
著者: Jonathan Bragg, Mike D'Arcy, Nishant Balepur, Dan Bareket, Bhavana Dalvi, Sergey Feldman, Dany Haddad, Jena D. Hwang, Peter Jansen, Varsha Kishore, Bodhisattwa Prasad Majumder, Aakanksha Naik, Sigal Rahamimov, Kyle Richardson, Amanpreet Singh, Harshit Surana, Aryeh Tiktinsky, Rosni Vasu, Guy Wiener, Chloe Anastasiades, Stefan Candra, Jason Dunkelberger, Dan Emery, Rob Evans, Malachi Hamada, Regan Huff, Rodney Kinney, Matt Latzke, Jaron Lochner, Ruben Lozano-Aguilera, Cecile Nguyen, Smita Rao, Amber Tanaka, Brooke Vlahos, Peter Clark, Doug Downey, Yoav Goldberg, Ashish Sabharwal, Daniel S. Weld
cs.AI

要旨

AIエージェントは、文献調査の自動化、実験の再現、データ分析、さらには新たな研究方向性の提案を通じて、科学的生产性に革命をもたらす可能性を秘めている。実際、汎用の「深層研究」システムから、AI ScientistやAIGSのような科学特化型エージェントまで、多くの此类のエージェントが既に存在する。これらのエージェントを厳密に評価することは進歩にとって極めて重要である。しかし、既存のベンチマークはいくつかの点で不十分である。それらは、(1) 科学研究といった実世界のユースケースに対する全体的で製品に即した測定基準を提供できていない;(2) 中核的なエージェント能力を管理された条件下で比較するために必要な再現性のあるエージェントツールを欠いている;(3) モデルコストやツールへのアクセスといった交絡変数を考慮していない;(4) 迅速なエージェントのプロトタイピングと評価のための標準化されたインターフェースを提供しない;(5) 真の進歩を特定するために必要な包括的なベースラインエージェントを備えていない。これに対応するため、我々はエージェントをより厳密にベンチマークするための原則とツールを定義する。これらを用いて、我々はAstaBenchを提案する。これは、科学研究を実行するエージェント能力を初めて全体的に測定するスイートであり、科学的発見プロセス全体および複数の科学領域にわたる2400以上の問題を含み、実際に展開されているAstaエージェントへのユーザーリクエストに触発された多くの問題を包含する。本スイートには、制御された再現可能な評価を可能とし、交絡変数をより適切に考慮する、プロダクショングレードの検索ツールを備えた初の科学研究環境が付属する。併せて、科学利用に最適化された9つのクラスに及ぶAstaエージェントと多数のベースラインからなる包括的スイートを提供する。22のエージェントクラスに属する57のエージェントに対する我々の広範な評価は、いくつかの興味深い知見を明らかにしており、最も重要な点は、特定の個々の側面では意味のある進歩が見られるものの、AIは科学研究支援という課題を解決するには程遠い状態であるということだ。
English
AI agents hold the potential to revolutionize scientific productivity by automating literature reviews, replicating experiments, analyzing data, and even proposing new directions of inquiry; indeed, there are now many such agents, ranging from general-purpose "deep research" systems to specialized science-specific agents, such as AI Scientist and AIGS. Rigorous evaluation of these agents is critical for progress. Yet existing benchmarks fall short on several fronts: they (1) fail to provide holistic, product-informed measures of real-world use cases such as science research; (2) lack reproducible agent tools necessary for a controlled comparison of core agentic capabilities; (3) do not account for confounding variables such as model cost and tool access; (4) do not provide standardized interfaces for quick agent prototyping and evaluation; and (5) lack comprehensive baseline agents necessary to identify true advances. In response, we define principles and tooling for more rigorously benchmarking agents. Using these, we present AstaBench, a suite that provides the first holistic measure of agentic ability to perform scientific research, comprising 2400+ problems spanning the entire scientific discovery process and multiple scientific domains, and including many problems inspired by actual user requests to deployed Asta agents. Our suite comes with the first scientific research environment with production-grade search tools that enable controlled, reproducible evaluation, better accounting for confounders. Alongside, we provide a comprehensive suite of nine science-optimized classes of Asta agents and numerous baselines. Our extensive evaluation of 57 agents across 22 agent classes reveals several interesting findings, most importantly that despite meaningful progress on certain individual aspects, AI remains far from solving the challenge of science research assistance.
PDF31December 17, 2025