CORE-Bench: Het bevorderen van de geloofwaardigheid van gepubliceerd onderzoek door middel van een Benchmark voor Reproduceerbare Berekeningen.
CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark
September 17, 2024
Auteurs: Zachary S. Siegel, Sayash Kapoor, Nitya Nagdir, Benedikt Stroebl, Arvind Narayanan
cs.AI
Samenvatting
AI-agenten hebben het potentieel om gebruikers te helpen bij een verscheidenheid aan belangrijke taken, waaronder het uitvoeren van wetenschappelijk onderzoek. Om de ontwikkeling van nuttige agenten te stimuleren, hebben we benchmarks nodig die uitdagend zijn, maar vooral direct overeenkomen met real-world taken van belang. Dit artikel introduceert zo'n benchmark, ontworpen om de nauwkeurigheid van AI-agenten te meten bij het aanpakken van een cruciaal maar verrassend uitdagend aspect van wetenschappelijk onderzoek: computationele reproduceerbaarheid. Deze taak, fundamenteel voor het wetenschappelijke proces, omvat het reproduceren van de resultaten van een studie met behulp van de verstrekte code en data. We introduceren CORE-Bench (Computational Reproducibility Agent Benchmark), een benchmark bestaande uit 270 taken gebaseerd op 90 wetenschappelijke papers over drie disciplines (informatica, sociale wetenschappen en geneeskunde). Taken in CORE-Bench bestaan uit drie moeilijkheidsniveaus en omvatten zowel taal-alleen als visie-taal taken. We bieden een evaluatiesysteem om de nauwkeurigheid van agenten op een snelle en parallelle manier te meten, wat dagen evaluatietijd bespaart voor elke run in vergelijking met een sequentiële implementatie. We hebben twee baseline agenten geëvalueerd: de algemene AutoGPT en een taakspecifieke agent genaamd CORE-Agent. We hebben beide varianten getest met behulp van twee onderliggende taalmodellen: GPT-4o en GPT-4o-mini. De beste agent behaalde een nauwkeurigheid van 21% op de moeilijkste taak, wat de enorme ruimte voor verbetering laat zien bij het automatiseren van routinematige wetenschappelijke taken. Het hebben van agenten die bestaand werk kunnen reproduceren is een noodzakelijke stap naar het bouwen van agenten die nieuw onderzoek kunnen uitvoeren en de prestaties van andere onderzoeksagenten kunnen verifiëren en verbeteren. We hopen dat CORE-Bench de staat van reproduceerbaarheid kan verbeteren en de ontwikkeling van toekomstige onderzoeksagenten kan stimuleren.
English
AI agents have the potential to aid users on a variety of consequential
tasks, including conducting scientific research. To spur the development of
useful agents, we need benchmarks that are challenging, but more crucially,
directly correspond to real-world tasks of interest. This paper introduces such
a benchmark, designed to measure the accuracy of AI agents in tackling a
crucial yet surprisingly challenging aspect of scientific research:
computational reproducibility. This task, fundamental to the scientific
process, involves reproducing the results of a study using the provided code
and data. We introduce CORE-Bench (Computational Reproducibility Agent
Benchmark), a benchmark consisting of 270 tasks based on 90 scientific papers
across three disciplines (computer science, social science, and medicine).
Tasks in CORE-Bench consist of three difficulty levels and include both
language-only and vision-language tasks. We provide an evaluation system to
measure the accuracy of agents in a fast and parallelizable way, saving days of
evaluation time for each run compared to a sequential implementation. We
evaluated two baseline agents: the general-purpose AutoGPT and a task-specific
agent called CORE-Agent. We tested both variants using two underlying language
models: GPT-4o and GPT-4o-mini. The best agent achieved an accuracy of 21% on
the hardest task, showing the vast scope for improvement in automating routine
scientific tasks. Having agents that can reproduce existing work is a necessary
step towards building agents that can conduct novel research and could verify
and improve the performance of other research agents. We hope that CORE-Bench
can improve the state of reproducibility and spur the development of future
research agents.Summary
AI-Generated Summary