ChatPaper.aiChatPaper

PaperBench: Avaliando a Capacidade da IA de Replicar Pesquisas em IA

PaperBench: Evaluating AI's Ability to Replicate AI Research

April 2, 2025
Autores: Giulio Starace, Oliver Jaffe, Dane Sherburn, James Aung, Jun Shern Chan, Leon Maksin, Rachel Dias, Evan Mays, Benjamin Kinsella, Wyatt Thompson, Johannes Heidecke, Amelia Glaese, Tejal Patwardhan
cs.AI

Resumo

Apresentamos o PaperBench, um benchmark que avalia a capacidade de agentes de IA em replicar pesquisas de ponta em IA. Os agentes devem replicar 20 artigos selecionados como Spotlight e Oral da ICML 2024 do zero, incluindo a compreensão das contribuições dos artigos, o desenvolvimento de uma base de código e a execução bem-sucedida dos experimentos. Para uma avaliação objetiva, desenvolvemos rubricas que decompõem hierarquicamente cada tarefa de replicação em sub-tarefas menores com critérios de avaliação claros. No total, o PaperBench contém 8.316 tarefas individualmente avaliáveis. As rubricas são co-desenvolvidas com os autores de cada artigo da ICML para garantir precisão e realismo. Para permitir uma avaliação escalável, também desenvolvemos um avaliador baseado em LLM (Large Language Model) para classificar automaticamente as tentativas de replicação com base nas rubricas, e avaliamos o desempenho desse avaliador criando um benchmark separado para avaliadores. Avaliamos vários modelos de ponta no PaperBench, constatando que o agente com melhor desempenho testado, o Claude 3.5 Sonnet (Nova) com suporte de código aberto, alcança uma pontuação média de replicação de 21,0%. Por fim, recrutamos doutorandos de destaque em ML para tentar replicar um subconjunto do PaperBench, constatando que os modelos ainda não superam a linha de base humana. Disponibilizamos nosso código em https://github.com/openai/preparedness para facilitar pesquisas futuras sobre a compreensão das capacidades de engenharia de IA de agentes de IA.
English
We introduce PaperBench, a benchmark evaluating the ability of AI agents to replicate state-of-the-art AI research. Agents must replicate 20 ICML 2024 Spotlight and Oral papers from scratch, including understanding paper contributions, developing a codebase, and successfully executing experiments. For objective evaluation, we develop rubrics that hierarchically decompose each replication task into smaller sub-tasks with clear grading criteria. In total, PaperBench contains 8,316 individually gradable tasks. Rubrics are co-developed with the author(s) of each ICML paper for accuracy and realism. To enable scalable evaluation, we also develop an LLM-based judge to automatically grade replication attempts against rubrics, and assess our judge's performance by creating a separate benchmark for judges. We evaluate several frontier models on PaperBench, finding that the best-performing tested agent, Claude 3.5 Sonnet (New) with open-source scaffolding, achieves an average replication score of 21.0\%. Finally, we recruit top ML PhDs to attempt a subset of PaperBench, finding that models do not yet outperform the human baseline. We https://github.com/openai/preparedness{open-source our code} to facilitate future research in understanding the AI engineering capabilities of AI agents.
PDF362December 14, 2025