CORE-Bench: Promovendo a Credibilidade da Pesquisa Publicada Através de um Benchmark de Agente de Reprodutibilidade Computacional

Resumo

Agentes de IA têm o potencial de auxiliar os usuários em uma variedade de tarefas consequentes, incluindo a condução de pesquisas científicas. Para impulsionar o desenvolvimento de agentes úteis, precisamos de benchmarks que sejam desafiadores, mas, mais crucialmente, correspondam diretamente a tarefas do mundo real de interesse. Este artigo apresenta um benchmark desse tipo, projetado para medir a precisão dos agentes de IA ao lidar com um aspecto crucial, porém surpreendentemente desafiador, da pesquisa científica: a reprodutibilidade computacional. Essa tarefa, fundamental para o processo científico, envolve reproduzir os resultados de um estudo usando o código e os dados fornecidos. Apresentamos o CORE-Bench (Benchmark de Agente de Reprodutibilidade Computacional), um benchmark composto por 270 tarefas baseadas em 90 artigos científicos em três disciplinas (ciência da computação, ciências sociais e medicina). As tarefas no CORE-Bench consistem em três níveis de dificuldade e incluem tarefas apenas de linguagem e tarefas de visão-linguagem. Fornecemos um sistema de avaliação para medir a precisão dos agentes de forma rápida e paralelizável, economizando dias de tempo de avaliação para cada execução em comparação com uma implementação sequencial. Avaliamos dois agentes de referência: o AutoGPT de propósito geral e um agente específico da tarefa chamado CORE-Agent. Testamos ambas as variantes usando dois modelos de linguagem subjacentes: GPT-4o e GPT-4o-mini. O melhor agente alcançou uma precisão de 21% na tarefa mais difícil, mostrando o amplo espaço para melhoria na automatização de tarefas científicas rotineiras. Ter agentes que possam reproduzir trabalhos existentes é um passo necessário para construir agentes que possam realizar pesquisas inovadoras e verificar e melhorar o desempenho de outros agentes de pesquisa. Esperamos que o CORE-Bench possa melhorar o estado da reprodutibilidade e impulsionar o desenvolvimento de futuros agentes de pesquisa.

English

AI agents have the potential to aid users on a variety of consequential tasks, including conducting scientific research. To spur the development of useful agents, we need benchmarks that are challenging, but more crucially, directly correspond to real-world tasks of interest. This paper introduces such a benchmark, designed to measure the accuracy of AI agents in tackling a crucial yet surprisingly challenging aspect of scientific research: computational reproducibility. This task, fundamental to the scientific process, involves reproducing the results of a study using the provided code and data. We introduce CORE-Bench (Computational Reproducibility Agent Benchmark), a benchmark consisting of 270 tasks based on 90 scientific papers across three disciplines (computer science, social science, and medicine). Tasks in CORE-Bench consist of three difficulty levels and include both language-only and vision-language tasks. We provide an evaluation system to measure the accuracy of agents in a fast and parallelizable way, saving days of evaluation time for each run compared to a sequential implementation. We evaluated two baseline agents: the general-purpose AutoGPT and a task-specific agent called CORE-Agent. We tested both variants using two underlying language models: GPT-4o and GPT-4o-mini. The best agent achieved an accuracy of 21% on the hardest task, showing the vast scope for improvement in automating routine scientific tasks. Having agents that can reproduce existing work is a necessary step towards building agents that can conduct novel research and could verify and improve the performance of other research agents. We hope that CORE-Bench can improve the state of reproducibility and spur the development of future research agents.

CORE-Bench: Promovendo a Credibilidade da Pesquisa Publicada Através de um Benchmark de Agente de Reprodutibilidade Computacional

CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark

Resumo

Support