ChatPaper.aiChatPaper

PaperBench: Evaluando la capacidad de la IA para replicar investigaciones en IA

PaperBench: Evaluating AI's Ability to Replicate AI Research

April 2, 2025
Autores: Giulio Starace, Oliver Jaffe, Dane Sherburn, James Aung, Jun Shern Chan, Leon Maksin, Rachel Dias, Evan Mays, Benjamin Kinsella, Wyatt Thompson, Johannes Heidecke, Amelia Glaese, Tejal Patwardhan
cs.AI

Resumen

Presentamos PaperBench, un punto de referencia que evalúa la capacidad de los agentes de IA para replicar investigaciones de vanguardia en IA. Los agentes deben replicar desde cero 20 artículos destacados y orales de ICML 2024, incluyendo la comprensión de las contribuciones del artículo, el desarrollo de una base de código y la ejecución exitosa de experimentos. Para una evaluación objetiva, desarrollamos rúbricas que descomponen jerárquicamente cada tarea de replicación en sub-tareas más pequeñas con criterios de calificación claros. En total, PaperBench contiene 8,316 tareas calificables individualmente. Las rúbricas se desarrollan en colaboración con los autores de cada artículo de ICML para garantizar precisión y realismo. Para permitir una evaluación escalable, también desarrollamos un juez basado en LLM para calificar automáticamente los intentos de replicación según las rúbricas, y evaluamos el rendimiento de nuestro juez creando un punto de referencia separado para jueces. Evaluamos varios modelos de vanguardia en PaperBench, encontrando que el agente con mejor rendimiento probado, Claude 3.5 Sonnet (Nuevo) con andamiaje de código abierto, alcanza una puntuación promedio de replicación del 21.0\%. Finalmente, reclutamos a doctorandos destacados en ML para intentar un subconjunto de PaperBench, encontrando que los modelos aún no superan el punto de referencia humano. Hemos https://github.com/openai/preparedness{abierto el código} para facilitar futuras investigaciones en la comprensión de las capacidades de ingeniería de IA de los agentes de IA.
English
We introduce PaperBench, a benchmark evaluating the ability of AI agents to replicate state-of-the-art AI research. Agents must replicate 20 ICML 2024 Spotlight and Oral papers from scratch, including understanding paper contributions, developing a codebase, and successfully executing experiments. For objective evaluation, we develop rubrics that hierarchically decompose each replication task into smaller sub-tasks with clear grading criteria. In total, PaperBench contains 8,316 individually gradable tasks. Rubrics are co-developed with the author(s) of each ICML paper for accuracy and realism. To enable scalable evaluation, we also develop an LLM-based judge to automatically grade replication attempts against rubrics, and assess our judge's performance by creating a separate benchmark for judges. We evaluate several frontier models on PaperBench, finding that the best-performing tested agent, Claude 3.5 Sonnet (New) with open-source scaffolding, achieves an average replication score of 21.0\%. Finally, we recruit top ML PhDs to attempt a subset of PaperBench, finding that models do not yet outperform the human baseline. We https://github.com/openai/preparedness{open-source our code} to facilitate future research in understanding the AI engineering capabilities of AI agents.

Summary

AI-Generated Summary

PDF362April 3, 2025