ChatPaper.aiChatPaper

PaperBench: AI 연구 복제 능력 평가

PaperBench: Evaluating AI's Ability to Replicate AI Research

April 2, 2025
저자: Giulio Starace, Oliver Jaffe, Dane Sherburn, James Aung, Jun Shern Chan, Leon Maksin, Rachel Dias, Evan Mays, Benjamin Kinsella, Wyatt Thompson, Johannes Heidecke, Amelia Glaese, Tejal Patwardhan
cs.AI

초록

우리는 최신 AI 연구를 재현하는 AI 에이전트의 능력을 평가하는 벤치마크인 PaperBench를 소개합니다. 에이전트는 ICML 2024 스포트라이트 및 오럴 논문 20편을 처음부터 재현해야 하며, 이는 논문의 기여를 이해하고 코드베이스를 개발하며 실험을 성공적으로 실행하는 과정을 포함합니다. 객관적인 평가를 위해, 우리는 각 재현 작업을 명확한 채점 기준을 가진 더 작은 하위 작업으로 계층적으로 분해하는 루브릭을 개발했습니다. 총계적으로, PaperBench는 8,316개의 개별적으로 채점 가능한 작업을 포함합니다. 루브릭은 정확성과 현실성을 위해 각 ICML 논문의 저자와 공동으로 개발되었습니다. 확장 가능한 평가를 위해, 우리는 또한 LLM 기반의 심사자를 개발하여 재현 시도를 루브릭에 따라 자동으로 채점하고, 심사자의 성능을 평가하기 위해 별도의 심사자 벤치마크를 생성했습니다. 우리는 PaperBench에서 여러 최첨단 모델을 평가했으며, 테스트된 에이전트 중 가장 성능이 좋은 Claude 3.5 Sonnet(New)가 오픈소스 스캐폴딩과 함께 평균 21.0%의 재현 점수를 달성한 것을 확인했습니다. 마지막으로, 우리는 최고 수준의 ML 박사과정 학생들을 모집하여 PaperBench의 일부를 시도하게 했고, 모델들이 아직 인간 기준을 능가하지 못한다는 것을 발견했습니다. 우리는 AI 에이전트의 엔지니어링 능력을 이해하기 위한 미래 연구를 촉진하기 위해 https://github.com/openai/preparedness{코드를 오픈소스로 공개}했습니다.
English
We introduce PaperBench, a benchmark evaluating the ability of AI agents to replicate state-of-the-art AI research. Agents must replicate 20 ICML 2024 Spotlight and Oral papers from scratch, including understanding paper contributions, developing a codebase, and successfully executing experiments. For objective evaluation, we develop rubrics that hierarchically decompose each replication task into smaller sub-tasks with clear grading criteria. In total, PaperBench contains 8,316 individually gradable tasks. Rubrics are co-developed with the author(s) of each ICML paper for accuracy and realism. To enable scalable evaluation, we also develop an LLM-based judge to automatically grade replication attempts against rubrics, and assess our judge's performance by creating a separate benchmark for judges. We evaluate several frontier models on PaperBench, finding that the best-performing tested agent, Claude 3.5 Sonnet (New) with open-source scaffolding, achieves an average replication score of 21.0\%. Finally, we recruit top ML PhDs to attempt a subset of PaperBench, finding that models do not yet outperform the human baseline. We https://github.com/openai/preparedness{open-source our code} to facilitate future research in understanding the AI engineering capabilities of AI agents.

Summary

AI-Generated Summary

PDF362April 3, 2025