PaperBench : Évaluer la capacité de l'IA à reproduire la recherche en IA
PaperBench: Evaluating AI's Ability to Replicate AI Research
April 2, 2025
Auteurs: Giulio Starace, Oliver Jaffe, Dane Sherburn, James Aung, Jun Shern Chan, Leon Maksin, Rachel Dias, Evan Mays, Benjamin Kinsella, Wyatt Thompson, Johannes Heidecke, Amelia Glaese, Tejal Patwardhan
cs.AI
Résumé
Nous présentons PaperBench, un benchmark évaluant la capacité des agents d'IA à reproduire des recherches de pointe en IA. Les agents doivent reproduire 20 articles Spotlight et Oral de l'ICML 2024 à partir de zéro, en comprenant les contributions des articles, en développant une base de code et en exécutant avec succès les expériences. Pour une évaluation objective, nous développons des grilles d'évaluation qui décomposent hiérarchiquement chaque tâche de reproduction en sous-tâches plus petites avec des critères de notation clairs. Au total, PaperBench contient 8 316 tâches notables individuellement. Les grilles d'évaluation sont co-développées avec les auteurs de chaque article de l'ICML pour garantir précision et réalisme. Pour permettre une évaluation scalable, nous développons également un juge basé sur un modèle de langage (LLM) pour noter automatiquement les tentatives de reproduction selon les grilles d'évaluation, et nous évaluons la performance de notre juge en créant un benchmark séparé pour les juges. Nous évaluons plusieurs modèles de pointe sur PaperBench, constatant que l'agent le plus performant testé, Claude 3.5 Sonnet (New) avec un échafaudage open-source, atteint un score moyen de reproduction de 21,0 %. Enfin, nous recrutons des doctorants en ML de haut niveau pour tenter un sous-ensemble de PaperBench, constatant que les modèles ne surpassent pas encore la référence humaine. Nous https://github.com/openai/preparedness{ouvrons notre code en source ouverte} pour faciliter les recherches futures sur la compréhension des capacités d'ingénierie IA des agents d'IA.
English
We introduce PaperBench, a benchmark evaluating the ability of AI agents to
replicate state-of-the-art AI research. Agents must replicate 20 ICML 2024
Spotlight and Oral papers from scratch, including understanding paper
contributions, developing a codebase, and successfully executing experiments.
For objective evaluation, we develop rubrics that hierarchically decompose each
replication task into smaller sub-tasks with clear grading criteria. In total,
PaperBench contains 8,316 individually gradable tasks. Rubrics are co-developed
with the author(s) of each ICML paper for accuracy and realism. To enable
scalable evaluation, we also develop an LLM-based judge to automatically grade
replication attempts against rubrics, and assess our judge's performance by
creating a separate benchmark for judges. We evaluate several frontier models
on PaperBench, finding that the best-performing tested agent, Claude 3.5 Sonnet
(New) with open-source scaffolding, achieves an average replication score of
21.0\%. Finally, we recruit top ML PhDs to attempt a subset of PaperBench,
finding that models do not yet outperform the human baseline. We
https://github.com/openai/preparedness{open-source our code} to
facilitate future research in understanding the AI engineering capabilities of
AI agents.Summary
AI-Generated Summary