PaperBench: Оценка способности ИИ воспроизводить исследования в области ИИ

Аннотация

Мы представляем PaperBench — эталонный тест, оценивающий способность ИИ-агентов воспроизводить передовые исследования в области искусственного интеллекта. Агенты должны с нуля воспроизвести 20 статей, представленных на ICML 2024 в секциях Spotlight и Oral, включая понимание вклада статей, разработку кодовой базы и успешное выполнение экспериментов. Для объективной оценки мы разработали критерии, которые иерархически разбивают каждую задачу воспроизведения на более мелкие подзадачи с четкими критериями оценки. В общей сложности PaperBench содержит 8 316 индивидуально оцениваемых задач. Критерии разрабатываются совместно с авторами каждой статьи ICML для обеспечения точности и реалистичности. Чтобы обеспечить масштабируемую оценку, мы также разработали судью на основе LLM для автоматической оценки попыток воспроизведения в соответствии с критериями, а также оценили производительность нашего судьи, создав отдельный эталонный тест для судей. Мы протестировали несколько передовых моделей на PaperBench и обнаружили, что лучший из протестированных агентов, Claude 3.5 Sonnet (New) с использованием открытого исходного кода, достигает среднего балла за воспроизведение в 21,0\%. Наконец, мы привлекли ведущих аспирантов в области машинного обучения для выполнения части задач PaperBench и выяснили, что модели пока не превосходят человеческий базовый уровень. Мы открываем исходный код на https://github.com/openai/preparedness, чтобы способствовать дальнейшим исследованиям в области понимания инженерных возможностей ИИ-агентов.

English

We introduce PaperBench, a benchmark evaluating the ability of AI agents to replicate state-of-the-art AI research. Agents must replicate 20 ICML 2024 Spotlight and Oral papers from scratch, including understanding paper contributions, developing a codebase, and successfully executing experiments. For objective evaluation, we develop rubrics that hierarchically decompose each replication task into smaller sub-tasks with clear grading criteria. In total, PaperBench contains 8,316 individually gradable tasks. Rubrics are co-developed with the author(s) of each ICML paper for accuracy and realism. To enable scalable evaluation, we also develop an LLM-based judge to automatically grade replication attempts against rubrics, and assess our judge's performance by creating a separate benchmark for judges. We evaluate several frontier models on PaperBench, finding that the best-performing tested agent, Claude 3.5 Sonnet (New) with open-source scaffolding, achieves an average replication score of 21.0\%. Finally, we recruit top ML PhDs to attempt a subset of PaperBench, finding that models do not yet outperform the human baseline. We https://github.com/openai/preparedness{open-source our code} to facilitate future research in understanding the AI engineering capabilities of AI agents.

PaperBench: Оценка способности ИИ воспроизводить исследования в области ИИ

PaperBench: Evaluating AI's Ability to Replicate AI Research

Аннотация

Support