CORE-Bench: Fomentando la Credibilidad de la Investigación Publicada a Través de un Benchmark de Agente de Reproducibilidad Computacional
CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark
September 17, 2024
Autores: Zachary S. Siegel, Sayash Kapoor, Nitya Nagdir, Benedikt Stroebl, Arvind Narayanan
cs.AI
Resumen
Los agentes de IA tienen el potencial de ayudar a los usuarios en una variedad de tareas importantes, incluida la realización de investigaciones científicas. Para impulsar el desarrollo de agentes útiles, necesitamos referencias que sean desafiantes, pero, sobre todo, que se correspondan directamente con tareas del mundo real de interés. Este documento presenta una referencia de este tipo, diseñada para medir la precisión de los agentes de IA al abordar un aspecto crucial pero sorprendentemente desafiante de la investigación científica: la reproducibilidad computacional. Esta tarea, fundamental para el proceso científico, implica reproducir los resultados de un estudio utilizando el código y los datos proporcionados. Presentamos CORE-Bench (Banco de Pruebas de Agentes de Reproducibilidad Computacional), una referencia que consta de 270 tareas basadas en 90 artículos científicos en tres disciplinas (informática, ciencias sociales y medicina). Las tareas en CORE-Bench se dividen en tres niveles de dificultad e incluyen tareas solo de lenguaje y de visión-lenguaje. Proporcionamos un sistema de evaluación para medir la precisión de los agentes de manera rápida y paralela, ahorrando días de tiempo de evaluación en cada ejecución en comparación con una implementación secuencial. Evaluamos dos agentes base: el AutoGPT de propósito general y un agente específico de la tarea llamado CORE-Agent. Probamos ambas variantes utilizando dos modelos de lenguaje subyacentes: GPT-4o y GPT-4o-mini. El mejor agente logró una precisión del 21% en la tarea más difícil, mostrando un amplio margen para mejorar la automatización de tareas científicas rutinarias. Contar con agentes que puedan reproducir trabajos existentes es un paso necesario hacia la construcción de agentes que puedan realizar investigaciones novedosas y verificar y mejorar el rendimiento de otros agentes de investigación. Esperamos que CORE-Bench pueda mejorar el estado de la reproducibilidad y fomentar el desarrollo de futuros agentes de investigación.
English
AI agents have the potential to aid users on a variety of consequential
tasks, including conducting scientific research. To spur the development of
useful agents, we need benchmarks that are challenging, but more crucially,
directly correspond to real-world tasks of interest. This paper introduces such
a benchmark, designed to measure the accuracy of AI agents in tackling a
crucial yet surprisingly challenging aspect of scientific research:
computational reproducibility. This task, fundamental to the scientific
process, involves reproducing the results of a study using the provided code
and data. We introduce CORE-Bench (Computational Reproducibility Agent
Benchmark), a benchmark consisting of 270 tasks based on 90 scientific papers
across three disciplines (computer science, social science, and medicine).
Tasks in CORE-Bench consist of three difficulty levels and include both
language-only and vision-language tasks. We provide an evaluation system to
measure the accuracy of agents in a fast and parallelizable way, saving days of
evaluation time for each run compared to a sequential implementation. We
evaluated two baseline agents: the general-purpose AutoGPT and a task-specific
agent called CORE-Agent. We tested both variants using two underlying language
models: GPT-4o and GPT-4o-mini. The best agent achieved an accuracy of 21% on
the hardest task, showing the vast scope for improvement in automating routine
scientific tasks. Having agents that can reproduce existing work is a necessary
step towards building agents that can conduct novel research and could verify
and improve the performance of other research agents. We hope that CORE-Bench
can improve the state of reproducibility and spur the development of future
research agents.Summary
AI-Generated Summary