ChatPaper.aiChatPaper

PaperBench: Het evalueren van AI's vermogen om AI-onderzoek te repliceren

PaperBench: Evaluating AI's Ability to Replicate AI Research

April 2, 2025
Auteurs: Giulio Starace, Oliver Jaffe, Dane Sherburn, James Aung, Jun Shern Chan, Leon Maksin, Rachel Dias, Evan Mays, Benjamin Kinsella, Wyatt Thompson, Johannes Heidecke, Amelia Glaese, Tejal Patwardhan
cs.AI

Samenvatting

We introduceren PaperBench, een benchmark die het vermogen van AI-agents evalueert om state-of-the-art AI-onderzoek te repliceren. Agents moeten 20 ICML 2024 Spotlight- en Oral-papers van scratch repliceren, inclusief het begrijpen van de bijdragen van de papers, het ontwikkelen van een codebase en het succesvol uitvoeren van experimenten. Voor objectieve evaluatie ontwikkelen we rubrics die elke replicatietaak hiërarchisch opdelen in kleinere sub-taken met duidelijke beoordelingscriteria. In totaal bevat PaperBench 8.316 individueel beoordeelbare taken. De rubrics worden samen met de auteur(s) van elk ICML-paper ontwikkeld voor nauwkeurigheid en realisme. Om schaalbare evaluatie mogelijk te maken, ontwikkelen we ook een op LLM gebaseerde beoordelaar om replicatiepogingen automatisch te beoordelen aan de hand van de rubrics, en we beoordelen de prestaties van onze beoordelaar door een aparte benchmark voor beoordelaars te creëren. We evalueren verschillende frontier-modellen op PaperBench en constateren dat de best presterende geteste agent, Claude 3.5 Sonnet (New) met open-source scaffolding, een gemiddelde replicatiescore van 21,0\% behaalt. Ten slotte werven we top-ML-promovendi aan om een subset van PaperBench te proberen, en we constateren dat modellen de menselijke baseline nog niet overtreffen. We https://github.com/openai/preparedness{open-sourcen onze code} om toekomstig onderzoek te vergemakkelijken in het begrijpen van de AI-engineeringcapaciteiten van AI-agents.
English
We introduce PaperBench, a benchmark evaluating the ability of AI agents to replicate state-of-the-art AI research. Agents must replicate 20 ICML 2024 Spotlight and Oral papers from scratch, including understanding paper contributions, developing a codebase, and successfully executing experiments. For objective evaluation, we develop rubrics that hierarchically decompose each replication task into smaller sub-tasks with clear grading criteria. In total, PaperBench contains 8,316 individually gradable tasks. Rubrics are co-developed with the author(s) of each ICML paper for accuracy and realism. To enable scalable evaluation, we also develop an LLM-based judge to automatically grade replication attempts against rubrics, and assess our judge's performance by creating a separate benchmark for judges. We evaluate several frontier models on PaperBench, finding that the best-performing tested agent, Claude 3.5 Sonnet (New) with open-source scaffolding, achieves an average replication score of 21.0\%. Finally, we recruit top ML PhDs to attempt a subset of PaperBench, finding that models do not yet outperform the human baseline. We https://github.com/openai/preparedness{open-source our code} to facilitate future research in understanding the AI engineering capabilities of AI agents.

Summary

AI-Generated Summary

PDF362April 3, 2025