ChatPaper.aiChatPaper

CORE-Bench : Favoriser la crédibilité de la recherche publiée grâce à un Benchmark de l'Agent de Reproductibilité Informatique

CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark

September 17, 2024
Auteurs: Zachary S. Siegel, Sayash Kapoor, Nitya Nagdir, Benedikt Stroebl, Arvind Narayanan
cs.AI

Résumé

Les agents d'IA ont le potentiel d'aider les utilisateurs dans diverses tâches importantes, y compris la réalisation de recherches scientifiques. Pour stimuler le développement d'agents utiles, nous avons besoin de références qui soient exigeantes, mais surtout, correspondent directement à des tâches réelles d'intérêt. Cet article présente une telle référence, conçue pour mesurer la précision des agents d'IA dans la résolution d'un aspect crucial mais étonnamment difficile de la recherche scientifique : la reproductibilité computationnelle. Cette tâche, fondamentale dans le processus scientifique, consiste à reproduire les résultats d'une étude en utilisant le code et les données fournis. Nous introduisons CORE-Bench (Banc d'essai de l'agent de reproductibilité computationnelle), une référence composée de 270 tâches basées sur 90 articles scientifiques dans trois disciplines (informatique, sciences sociales et médecine). Les tâches de CORE-Bench se déclinent en trois niveaux de difficulté et comprennent à la fois des tâches uniquement textuelles et des tâches texte-vision. Nous fournissons un système d'évaluation pour mesurer la précision des agents de manière rapide et parallélisable, ce qui permet d'économiser des jours d'évaluation pour chaque exécution par rapport à une implémentation séquentielle. Nous avons évalué deux agents de base : l'AutoGPT polyvalent et un agent spécifique à la tâche appelé CORE-Agent. Nous avons testé les deux variantes en utilisant deux modèles de langage sous-jacents : GPT-4o et GPT-4o-mini. Le meilleur agent a atteint une précision de 21 % sur la tâche la plus difficile, montrant ainsi l'ampleur des améliorations possibles dans l'automatisation des tâches scientifiques courantes. Avoir des agents capables de reproduire des travaux existants est une étape nécessaire vers la construction d'agents capables de mener des recherches novatrices et de vérifier et améliorer les performances d'autres agents de recherche. Nous espérons que CORE-Bench pourra améliorer l'état de la reproductibilité et stimuler le développement des futurs agents de recherche.
English
AI agents have the potential to aid users on a variety of consequential tasks, including conducting scientific research. To spur the development of useful agents, we need benchmarks that are challenging, but more crucially, directly correspond to real-world tasks of interest. This paper introduces such a benchmark, designed to measure the accuracy of AI agents in tackling a crucial yet surprisingly challenging aspect of scientific research: computational reproducibility. This task, fundamental to the scientific process, involves reproducing the results of a study using the provided code and data. We introduce CORE-Bench (Computational Reproducibility Agent Benchmark), a benchmark consisting of 270 tasks based on 90 scientific papers across three disciplines (computer science, social science, and medicine). Tasks in CORE-Bench consist of three difficulty levels and include both language-only and vision-language tasks. We provide an evaluation system to measure the accuracy of agents in a fast and parallelizable way, saving days of evaluation time for each run compared to a sequential implementation. We evaluated two baseline agents: the general-purpose AutoGPT and a task-specific agent called CORE-Agent. We tested both variants using two underlying language models: GPT-4o and GPT-4o-mini. The best agent achieved an accuracy of 21% on the hardest task, showing the vast scope for improvement in automating routine scientific tasks. Having agents that can reproduce existing work is a necessary step towards building agents that can conduct novel research and could verify and improve the performance of other research agents. We hope that CORE-Bench can improve the state of reproducibility and spur the development of future research agents.

Summary

AI-Generated Summary

PDF22November 16, 2024