ChatPaper.aiChatPaper

PaperBench: Оценка способности ИИ воспроизводить исследования в области ИИ

PaperBench: Evaluating AI's Ability to Replicate AI Research

April 2, 2025
Авторы: Giulio Starace, Oliver Jaffe, Dane Sherburn, James Aung, Jun Shern Chan, Leon Maksin, Rachel Dias, Evan Mays, Benjamin Kinsella, Wyatt Thompson, Johannes Heidecke, Amelia Glaese, Tejal Patwardhan
cs.AI

Аннотация

Мы представляем PaperBench — эталонный тест, оценивающий способность ИИ-агентов воспроизводить передовые исследования в области искусственного интеллекта. Агенты должны с нуля воспроизвести 20 статей, представленных на ICML 2024 в секциях Spotlight и Oral, включая понимание вклада статей, разработку кодовой базы и успешное выполнение экспериментов. Для объективной оценки мы разработали критерии, которые иерархически разбивают каждую задачу воспроизведения на более мелкие подзадачи с четкими критериями оценки. В общей сложности PaperBench содержит 8 316 индивидуально оцениваемых задач. Критерии разрабатываются совместно с авторами каждой статьи ICML для обеспечения точности и реалистичности. Чтобы обеспечить масштабируемую оценку, мы также разработали судью на основе LLM для автоматической оценки попыток воспроизведения в соответствии с критериями, а также оценили производительность нашего судьи, создав отдельный эталонный тест для судей. Мы протестировали несколько передовых моделей на PaperBench и обнаружили, что лучший из протестированных агентов, Claude 3.5 Sonnet (New) с использованием открытого исходного кода, достигает среднего балла за воспроизведение в 21,0\%. Наконец, мы привлекли ведущих аспирантов в области машинного обучения для выполнения части задач PaperBench и выяснили, что модели пока не превосходят человеческий базовый уровень. Мы открываем исходный код на https://github.com/openai/preparedness, чтобы способствовать дальнейшим исследованиям в области понимания инженерных возможностей ИИ-агентов.
English
We introduce PaperBench, a benchmark evaluating the ability of AI agents to replicate state-of-the-art AI research. Agents must replicate 20 ICML 2024 Spotlight and Oral papers from scratch, including understanding paper contributions, developing a codebase, and successfully executing experiments. For objective evaluation, we develop rubrics that hierarchically decompose each replication task into smaller sub-tasks with clear grading criteria. In total, PaperBench contains 8,316 individually gradable tasks. Rubrics are co-developed with the author(s) of each ICML paper for accuracy and realism. To enable scalable evaluation, we also develop an LLM-based judge to automatically grade replication attempts against rubrics, and assess our judge's performance by creating a separate benchmark for judges. We evaluate several frontier models on PaperBench, finding that the best-performing tested agent, Claude 3.5 Sonnet (New) with open-source scaffolding, achieves an average replication score of 21.0\%. Finally, we recruit top ML PhDs to attempt a subset of PaperBench, finding that models do not yet outperform the human baseline. We https://github.com/openai/preparedness{open-source our code} to facilitate future research in understanding the AI engineering capabilities of AI agents.

Summary

AI-Generated Summary

PDF362April 3, 2025