PaperBench: AI研究の再現能力を評価する
PaperBench: Evaluating AI's Ability to Replicate AI Research
April 2, 2025
著者: Giulio Starace, Oliver Jaffe, Dane Sherburn, James Aung, Jun Shern Chan, Leon Maksin, Rachel Dias, Evan Mays, Benjamin Kinsella, Wyatt Thompson, Johannes Heidecke, Amelia Glaese, Tejal Patwardhan
cs.AI
要旨
我々は、AIエージェントが最先端のAI研究を再現する能力を評価するベンチマーク「PaperBench」を紹介する。エージェントは、ICML 2024のSpotlightおよびOral論文20本をゼロから再現する必要があり、論文の貢献を理解し、コードベースを開発し、実験を成功させることを含む。客観的な評価のために、各再現タスクを明確な評価基準を持つ小さなサブタスクに階層的に分解するルーブリックを開発した。全体で、PaperBenchには8,316の個別に評価可能なタスクが含まれる。ルーブリックは、各ICML論文の著者と共同で開発され、正確性と現実性を確保している。スケーラブルな評価を可能にするため、LLMベースの評価者を開発し、再現試行をルーブリックに基づいて自動的に採点する。また、評価者の性能を評価するために、別のベンチマークを作成した。我々はいくつかの最先端モデルをPaperBenchで評価し、最高性能を示したエージェントであるClaude 3.5 Sonnet(新)とオープンソースのスキャフォールディングを使用した場合、平均再現スコアが21.0\%であることを確認した。最後に、トップのML PhD候補者を募集し、PaperBenchの一部を試行してもらった結果、モデルはまだ人間のベースラインを上回っていないことがわかった。我々は、AIエージェントのAIエンジニアリング能力を理解するための将来の研究を促進するために、コードをオープンソースとして公開した。
English
We introduce PaperBench, a benchmark evaluating the ability of AI agents to
replicate state-of-the-art AI research. Agents must replicate 20 ICML 2024
Spotlight and Oral papers from scratch, including understanding paper
contributions, developing a codebase, and successfully executing experiments.
For objective evaluation, we develop rubrics that hierarchically decompose each
replication task into smaller sub-tasks with clear grading criteria. In total,
PaperBench contains 8,316 individually gradable tasks. Rubrics are co-developed
with the author(s) of each ICML paper for accuracy and realism. To enable
scalable evaluation, we also develop an LLM-based judge to automatically grade
replication attempts against rubrics, and assess our judge's performance by
creating a separate benchmark for judges. We evaluate several frontier models
on PaperBench, finding that the best-performing tested agent, Claude 3.5 Sonnet
(New) with open-source scaffolding, achieves an average replication score of
21.0\%. Finally, we recruit top ML PhDs to attempt a subset of PaperBench,
finding that models do not yet outperform the human baseline. We
https://github.com/openai/preparedness{open-source our code} to
facilitate future research in understanding the AI engineering capabilities of
AI agents.Summary
AI-Generated Summary