ChatPaper.aiChatPaper

CORE-Bench: Повышение достоверности опубликованных исследований с помощью бенчмарка вычислительной воспроизводимости агента.

CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark

September 17, 2024
Авторы: Zachary S. Siegel, Sayash Kapoor, Nitya Nagdir, Benedikt Stroebl, Arvind Narayanan
cs.AI

Аннотация

Искусственно-интеллектные агенты имеют потенциал помогать пользователям в решении различных значимых задач, включая проведение научных исследований. Для стимулирования развития полезных агентов необходимы бенчмарки, которые были бы сложными, но, что более важно, напрямую соответствовали бы реальным задачам интереса. В данной статье представлен такой бенчмарк, разработанный для измерения точности искусственно-интеллектных агентов в решении критического, но удивительно сложного аспекта научных исследований: вычислительной воспроизводимости. Эта задача, являющаяся фундаментальной для научного процесса, включает воспроизведение результатов исследования с использованием предоставленного кода и данных. Мы представляем CORE-Bench (Бенчмарк агента вычислительной воспроизводимости), состоящий из 270 задач на основе 90 научных статей в трех областях (информатика, социальные науки и медицина). Задачи в CORE-Bench имеют три уровня сложности и включают как задачи только на языке, так и задачи на языке с визуальным компонентом. Мы предоставляем систему оценки для измерения точности агентов быстрым и параллельным способом, экономя дни времени на оценку для каждого запуска по сравнению с последовательной реализацией. Мы оценили два базовых агента: универсальный AutoGPT и агент, специализированный на задаче, названный CORE-Agent. Мы протестировали обе вариации, используя две базовые языковые модели: GPT-4o и GPT-4o-mini. Лучший агент достиг точности 21% на самой сложной задаче, показывая огромные возможности для улучшения автоматизации рутинных научных задач. Наличие агентов, способных воспроизводить существующую работу, является необходимым шагом к созданию агентов, способных проводить новые исследования, а также верифицировать и улучшать производительность других исследовательских агентов. Мы надеемся, что CORE-Bench способствует улучшению состояния воспроизводимости и стимулирует развитие будущих исследовательских агентов.
English
AI agents have the potential to aid users on a variety of consequential tasks, including conducting scientific research. To spur the development of useful agents, we need benchmarks that are challenging, but more crucially, directly correspond to real-world tasks of interest. This paper introduces such a benchmark, designed to measure the accuracy of AI agents in tackling a crucial yet surprisingly challenging aspect of scientific research: computational reproducibility. This task, fundamental to the scientific process, involves reproducing the results of a study using the provided code and data. We introduce CORE-Bench (Computational Reproducibility Agent Benchmark), a benchmark consisting of 270 tasks based on 90 scientific papers across three disciplines (computer science, social science, and medicine). Tasks in CORE-Bench consist of three difficulty levels and include both language-only and vision-language tasks. We provide an evaluation system to measure the accuracy of agents in a fast and parallelizable way, saving days of evaluation time for each run compared to a sequential implementation. We evaluated two baseline agents: the general-purpose AutoGPT and a task-specific agent called CORE-Agent. We tested both variants using two underlying language models: GPT-4o and GPT-4o-mini. The best agent achieved an accuracy of 21% on the hardest task, showing the vast scope for improvement in automating routine scientific tasks. Having agents that can reproduce existing work is a necessary step towards building agents that can conduct novel research and could verify and improve the performance of other research agents. We hope that CORE-Bench can improve the state of reproducibility and spur the development of future research agents.

Summary

AI-Generated Summary

PDF22November 16, 2024