CORE-Bench: Promuovere la Credibilità della Ricerca Pubblicata Attraverso un Benchmark dell'Agente di Riproducibilità Computazionale
CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark
September 17, 2024
Autori: Zachary S. Siegel, Sayash Kapoor, Nitya Nagdir, Benedikt Stroebl, Arvind Narayanan
cs.AI
Abstract
Gli agenti di intelligenza artificiale hanno il potenziale per aiutare gli utenti in una varietà di compiti di conseguenza, inclusa la conduzione di ricerche scientifiche. Per promuovere lo sviluppo di agenti utili, abbiamo bisogno di benchmark che siano impegnativi, ma soprattutto corrispondano direttamente a compiti del mondo reale di interesse. Questo articolo introduce un tale benchmark, progettato per misurare l'accuratezza degli agenti di intelligenza artificiale nel affrontare un aspetto cruciale ma sorprendentemente impegnativo della ricerca scientifica: la riproducibilità computazionale. Questo compito, fondamentale per il processo scientifico, coinvolge la riproduzione dei risultati di uno studio utilizzando il codice e i dati forniti. Presentiamo CORE-Bench (Benchmark dell'Agente di Riproducibilità Computazionale), un benchmark composto da 270 compiti basati su 90 articoli scientifici in tre discipline (informatica, scienze sociali e medicina). I compiti in CORE-Bench sono di tre livelli di difficoltà e includono compiti solo di linguaggio e visione-linguaggio. Forniamo un sistema di valutazione per misurare l'accuratezza degli agenti in modo rapido e parallelizzabile, risparmiando giorni di tempo di valutazione per ogni esecuzione rispetto a un'implementazione sequenziale. Abbiamo valutato due agenti di base: l'AutoGPT ad uso generale e un agente specifico del compito chiamato CORE-Agent. Abbiamo testato entrambe le varianti utilizzando due modelli linguistici sottostanti: GPT-4o e GPT-4o-mini. Il miglior agente ha raggiunto un'accuratezza del 21% sul compito più difficile, mostrando un ampio margine di miglioramento nell'automatizzazione dei compiti scientifici di routine. Avere agenti in grado di riprodurre lavori esistenti è un passo necessario verso la costruzione di agenti in grado di condurre ricerche innovative e potrebbe verificare e migliorare le prestazioni di altri agenti di ricerca. Speriamo che CORE-Bench possa migliorare lo stato della riproducibilità e promuovere lo sviluppo di futuri agenti di ricerca.
English
AI agents have the potential to aid users on a variety of consequential
tasks, including conducting scientific research. To spur the development of
useful agents, we need benchmarks that are challenging, but more crucially,
directly correspond to real-world tasks of interest. This paper introduces such
a benchmark, designed to measure the accuracy of AI agents in tackling a
crucial yet surprisingly challenging aspect of scientific research:
computational reproducibility. This task, fundamental to the scientific
process, involves reproducing the results of a study using the provided code
and data. We introduce CORE-Bench (Computational Reproducibility Agent
Benchmark), a benchmark consisting of 270 tasks based on 90 scientific papers
across three disciplines (computer science, social science, and medicine).
Tasks in CORE-Bench consist of three difficulty levels and include both
language-only and vision-language tasks. We provide an evaluation system to
measure the accuracy of agents in a fast and parallelizable way, saving days of
evaluation time for each run compared to a sequential implementation. We
evaluated two baseline agents: the general-purpose AutoGPT and a task-specific
agent called CORE-Agent. We tested both variants using two underlying language
models: GPT-4o and GPT-4o-mini. The best agent achieved an accuracy of 21% on
the hardest task, showing the vast scope for improvement in automating routine
scientific tasks. Having agents that can reproduce existing work is a necessary
step towards building agents that can conduct novel research and could verify
and improve the performance of other research agents. We hope that CORE-Bench
can improve the state of reproducibility and spur the development of future
research agents.Summary
AI-Generated Summary