ChatPaper.aiChatPaper

AstaBench: 과학적 연구 도구 모음으로 AI 에이전트를 엄격하게 벤치마킹하다

AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite

October 24, 2025
저자: Jonathan Bragg, Mike D'Arcy, Nishant Balepur, Dan Bareket, Bhavana Dalvi, Sergey Feldman, Dany Haddad, Jena D. Hwang, Peter Jansen, Varsha Kishore, Bodhisattwa Prasad Majumder, Aakanksha Naik, Sigal Rahamimov, Kyle Richardson, Amanpreet Singh, Harshit Surana, Aryeh Tiktinsky, Rosni Vasu, Guy Wiener, Chloe Anastasiades, Stefan Candra, Jason Dunkelberger, Dan Emery, Rob Evans, Malachi Hamada, Regan Huff, Rodney Kinney, Matt Latzke, Jaron Lochner, Ruben Lozano-Aguilera, Cecile Nguyen, Smita Rao, Amber Tanaka, Brooke Vlahos, Peter Clark, Doug Downey, Yoav Goldberg, Ashish Sabharwal, Daniel S. Weld
cs.AI

초록

AI 에이전트는 문헌 고찰 자동화, 실험 재현, 데이터 분석, 나아가 새로운 연구 방향 제안을 통해 과학적 생산성을 혁신할 잠재력을 지니고 있습니다. 실제로 현재는 범용 "딥 리서치" 시스템부터 AI Scientist, AIGS와 같은 과학 특화 에이전트에 이르기까지 다양한 에이전트가 존재합니다. 이러한 에이전트에 대한 엄격한 평가는 발전을 위해 중요합니다. 그러나 기존 벤치마크는 몇 가지 측면에서 한계를 보입니다: (1) 과학 연구와 같은 실제 사용 사례에 대한 전체적이고 제품 기반의 측정치를 제공하지 못하며, (2) 핵심 에이전트 능력을 통제된 조건에서 비교하는 데 필요한 재현 가능한 에이전트 도구가 부족하고, (3) 모델 비용과 도구 접근성 같은 교란 변수를 고려하지 않으며, (4) 빠른 에이전트 프로토타이핑과 평가를 위한 표준화된 인터페이스를 제공하지 않고, (5) 진정한 발전을 확인하는 데 필요한 포괄적인 기준 에이전트가 부족합니다. 이에 대응하여 우리는 에이전트를 보다 엄격하게 벤치마킹하기 위한 원칙과 도구를 정의합니다. 이를 활용하여 우리는 과학 연구 수행 능력에 대한 최초의 종합적 측정치를 제공하는 AstaBench를 소개합니다. 이 스위트는 전체 과학 발견 과정과 여러 과학 영역에 걸친 2,400개 이상의 문제로 구성되며, 배포된 Asta 에이전트에 대한 실제 사용자 요청에서 영감을 받은 많은 문제를 포함합니다. 우리의 스위트는 통제되고 재현 가능한 평가를 가능하게 하는 프로덕션 등급 검색 도구를 갖춘 최초의 과학 연구 환경을 동반하며, 교란 변수를 더 잘 설명합니다. 함께하여 우리는 과학에 최적화된 9개 클래스의 포괄적인 Asta 에이전트 스위트와 수많은 기준치를 제공합니다. 22개 에이전트 클래스에 걸친 57개 에이전트에 대한 우리의 광범위한 평가는 몇 가지 흥미로운 발견을 보여주는데, 가장 중요한 것은 특정 개별 측면에서 의미 있는 진전이 있었음에도 불구하고 AI가 과학 연구 지원이라는 과제를 해결하는 데는 여전히 거리가 멀다는 점입니다.
English
AI agents hold the potential to revolutionize scientific productivity by automating literature reviews, replicating experiments, analyzing data, and even proposing new directions of inquiry; indeed, there are now many such agents, ranging from general-purpose "deep research" systems to specialized science-specific agents, such as AI Scientist and AIGS. Rigorous evaluation of these agents is critical for progress. Yet existing benchmarks fall short on several fronts: they (1) fail to provide holistic, product-informed measures of real-world use cases such as science research; (2) lack reproducible agent tools necessary for a controlled comparison of core agentic capabilities; (3) do not account for confounding variables such as model cost and tool access; (4) do not provide standardized interfaces for quick agent prototyping and evaluation; and (5) lack comprehensive baseline agents necessary to identify true advances. In response, we define principles and tooling for more rigorously benchmarking agents. Using these, we present AstaBench, a suite that provides the first holistic measure of agentic ability to perform scientific research, comprising 2400+ problems spanning the entire scientific discovery process and multiple scientific domains, and including many problems inspired by actual user requests to deployed Asta agents. Our suite comes with the first scientific research environment with production-grade search tools that enable controlled, reproducible evaluation, better accounting for confounders. Alongside, we provide a comprehensive suite of nine science-optimized classes of Asta agents and numerous baselines. Our extensive evaluation of 57 agents across 22 agent classes reveals several interesting findings, most importantly that despite meaningful progress on certain individual aspects, AI remains far from solving the challenge of science research assistance.
PDF31December 17, 2025