PaperBench: Bewertung der Fähigkeit von KI, KI-Forschung zu replizieren
PaperBench: Evaluating AI's Ability to Replicate AI Research
April 2, 2025
Autoren: Giulio Starace, Oliver Jaffe, Dane Sherburn, James Aung, Jun Shern Chan, Leon Maksin, Rachel Dias, Evan Mays, Benjamin Kinsella, Wyatt Thompson, Johannes Heidecke, Amelia Glaese, Tejal Patwardhan
cs.AI
Zusammenfassung
Wir stellen PaperBench vor, einen Benchmark, der die Fähigkeit von KI-Agenten bewertet, aktuelle KI-Forschung zu replizieren. Die Agenten müssen 20 ICML 2024 Spotlight- und Oral-Paper von Grund auf replizieren, einschließlich des Verständnisses der Beiträge der Paper, der Entwicklung einer Codebasis und der erfolgreichen Durchführung von Experimenten. Für eine objektive Bewertung entwickeln wir Bewertungsraster, die jede Replikationsaufgabe hierarchisch in kleinere Teilaufgaben mit klaren Bewertungskriterien zerlegen. Insgesamt enthält PaperBench 8.316 einzeln bewertbare Aufgaben. Die Bewertungsraster werden gemeinsam mit den Autoren der jeweiligen ICML-Paper entwickelt, um Genauigkeit und Realismus zu gewährleisten. Um eine skalierbare Bewertung zu ermöglichen, entwickeln wir auch einen LLM-basierten Bewerter, der Replikationsversuche automatisch anhand der Bewertungsraster bewertet, und bewerten die Leistung unseres Bewerters durch die Erstellung eines separaten Benchmarks für Bewerter. Wir evaluieren mehrere Spitzenmodelle auf PaperBench und stellen fest, dass der leistungsstärkste getestete Agent, Claude 3.5 Sonnet (New) mit Open-Source-Scaffolding, eine durchschnittliche Replikationspunktzahl von 21,0\% erreicht. Schließlich rekrutieren wir Top-ML-Promovierte, um eine Teilmenge von PaperBench zu bearbeiten, und stellen fest, dass die Modelle die menschliche Baseline noch nicht übertreffen. Wir https://github.com/openai/preparedness{veröffentlichen unseren Code}, um zukünftige Forschungen zum Verständnis der KI-Engineering-Fähigkeiten von KI-Agenten zu erleichtern.
English
We introduce PaperBench, a benchmark evaluating the ability of AI agents to
replicate state-of-the-art AI research. Agents must replicate 20 ICML 2024
Spotlight and Oral papers from scratch, including understanding paper
contributions, developing a codebase, and successfully executing experiments.
For objective evaluation, we develop rubrics that hierarchically decompose each
replication task into smaller sub-tasks with clear grading criteria. In total,
PaperBench contains 8,316 individually gradable tasks. Rubrics are co-developed
with the author(s) of each ICML paper for accuracy and realism. To enable
scalable evaluation, we also develop an LLM-based judge to automatically grade
replication attempts against rubrics, and assess our judge's performance by
creating a separate benchmark for judges. We evaluate several frontier models
on PaperBench, finding that the best-performing tested agent, Claude 3.5 Sonnet
(New) with open-source scaffolding, achieves an average replication score of
21.0\%. Finally, we recruit top ML PhDs to attempt a subset of PaperBench,
finding that models do not yet outperform the human baseline. We
https://github.com/openai/preparedness{open-source our code} to
facilitate future research in understanding the AI engineering capabilities of
AI agents.Summary
AI-Generated Summary