ScienceAgentBench: 데이터 기반 과학적 발견을 위한 언어 에이전트의 철저한 평가를 향하여
ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery
October 7, 2024
저자: Ziru Chen, Shijie Chen, Yuting Ning, Qianheng Zhang, Boshi Wang, Botao Yu, Yifei Li, Zeyi Liao, Chen Wei, Zitong Lu, Vishal Dey, Mingyi Xue, Frazier N. Baker, Benjamin Burns, Daniel Adu-Ampratwum, Xuhui Huang, Xia Ning, Song Gao, Yu Su, Huan Sun
cs.AI
초록
언어 모델의 발전은 과학적 발견을 자동화하기 위해 언어 모델 기반 언어 에이전트를 개발하는 데 커다란 관심을 불러일으켰으며, 이는 그러한 에이전트의 실제 능력에 대한 흥분과 회의를 동시에 촉발했습니다. 본 연구에서는 과학적 발견을 완전히 자동화하기 위해서는 에이전트가 워크플로우의 모든 중요한 작업을 완료할 수 있어야 한다고 주장합니다. 따라서 우리는 단계별 과학적 워크플로우에서 에이전트를 엄격하게 평가하고, 최종적으로 완전한 자동화에 대한 대담한 주장을 하기 전에 각 작업에서 에이전트를 철저히 검토해야 한다고 주장합니다. 이를 위해 데이터 기반 과학적 발견을 위한 언어 에이전트를 평가하기 위한 새로운 벤치마크인 ScienceAgentBench를 제시합니다. 우리의 벤치마크의 과학적 신뢰성과 현실 성을 보장하기 위해 우리는 네 가지 학문 분야에서 44편의 피어 리뷰 논문으로부터 102가지 작업을 추출하고, 아홉 명의 전문가들을 참여시켜 이를 검증합니다. 우리는 각 작업의 목표 출력을 독립적인 Python 프로그램 파일로 통합하고, 생성된 프로그램, 실행 결과 및 비용을 검토하기 위해 다양한 평가 지표를 활용합니다. 각 작업은 주석 작업자와 전문가들에 의해 주석 품질과 과학적 타당성을 보장하기 위해 여러 차례의 수동 검증을 거칩니다. 또한 데이터 오염 우려를 완화하기 위한 두 가지 효과적인 전략을 제안합니다. 우리의 벤치마크를 사용하여 다섯 개의 오픈 웨이트 및 프로프리터리한 언어 모델들을 평가하며, 각각에 대해 세 가지 프레임워크인 직접 프롬프팅, OpenHands 및 자체 디버깅을 사용합니다. 각 작업에 대해 세 번의 시도가 주어졌을 때, 최고 성능을 발휘하는 에이전트는 작업의 32.4%만 독립적으로 해결할 수 있으며, 전문가 지식을 활용하면 34.3%를 해결할 수 있습니다. 이러한 결과는 현재의 언어 에이전트들이 데이터 기반 발견을 위한 코드를 생성하는 능력이 제한되어 있을 뿐만 아니라, 과학 연구를 위한 완전한 자동화에 대해서도 한계가 있다는 점을 강조합니다.
English
The advancements of language language models (LLMs) have piqued growing
interest in developing LLM-based language agents to automate scientific
discovery end-to-end, which has sparked both excitement and skepticism about
the true capabilities of such agents. In this work, we argue that for an agent
to fully automate scientific discovery, it must be able to complete all
essential tasks in the workflow. Thus, we call for rigorous assessment of
agents on individual tasks in a scientific workflow before making bold claims
on end-to-end automation. To this end, we present ScienceAgentBench, a new
benchmark for evaluating language agents for data-driven scientific discovery.
To ensure the scientific authenticity and real-world relevance of our
benchmark, we extract 102 tasks from 44 peer-reviewed publications in four
disciplines and engage nine subject matter experts to validate them. We unify
the target output for every task to a self-contained Python program file and
employ an array of evaluation metrics to examine the generated programs,
execution results, and costs. Each task goes through multiple rounds of manual
validation by annotators and subject matter experts to ensure its annotation
quality and scientific plausibility. We also propose two effective strategies
to mitigate data contamination concerns. Using our benchmark, we evaluate five
open-weight and proprietary LLMs, each with three frameworks: direct prompting,
OpenHands, and self-debug. Given three attempts for each task, the
best-performing agent can only solve 32.4% of the tasks independently and 34.3%
with expert-provided knowledge. These results underscore the limited capacities
of current language agents in generating code for data-driven discovery, let
alone end-to-end automation for scientific research.Summary
AI-Generated Summary