CORE-Bench: Förderung der Glaubwürdigkeit von veröffentlichten Forschungsergebnissen durch einen Benchmark für die reproduzierbare Berechnung.
CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark
September 17, 2024
Autoren: Zachary S. Siegel, Sayash Kapoor, Nitya Nagdir, Benedikt Stroebl, Arvind Narayanan
cs.AI
Zusammenfassung
KI-Agenten haben das Potenzial, Benutzern bei einer Vielzahl von bedeutsamen Aufgaben zu helfen, einschließlich der Durchführung wissenschaftlicher Forschung. Um die Entwicklung nützlicher Agenten voranzutreiben, benötigen wir Benchmarks, die anspruchsvoll sind, aber vor allem direkt mit realen Aufgaben von Interesse korrespondieren. Dieses Papier stellt einen solchen Benchmark vor, der entwickelt wurde, um die Genauigkeit von KI-Agenten bei der Bewältigung eines entscheidenden, aber überraschend herausfordernden Aspekts wissenschaftlicher Forschung zu messen: der Rechenreproduzierbarkeit. Diese Aufgabe, die fundamental für den wissenschaftlichen Prozess ist, beinhaltet die Reproduktion der Ergebnisse einer Studie unter Verwendung des bereitgestellten Codes und der Daten. Wir stellen CORE-Bench (Computational Reproducibility Agent Benchmark) vor, einen Benchmark, der aus 270 Aufgaben basierend auf 90 wissenschaftlichen Arbeiten in drei Disziplinen (Informatik, Sozialwissenschaften und Medizin) besteht. Die Aufgaben in CORE-Bench umfassen drei Schwierigkeitsstufen und beinhalten sowohl sprachbasierte als auch Bild-Sprach-Aufgaben. Wir stellen ein Bewertungssystem bereit, um die Genauigkeit von Agenten auf schnelle und parallelisierbare Weise zu messen, was im Vergleich zu einer sequenziellen Implementierung Tage an Evaluierungszeit pro Durchlauf einspart. Wir haben zwei Basis-Agenten evaluiert: den Allzweck-Agenten AutoGPT und einen aufgabenspezifischen Agenten namens CORE-Agent. Wir haben beide Varianten unter Verwendung von zwei zugrunde liegenden Sprachmodellen getestet: GPT-4o und GPT-4o-mini. Der beste Agent erreichte eine Genauigkeit von 21% bei der schwierigsten Aufgabe, was das große Verbesserungspotenzial bei der Automatisierung routinemäßiger wissenschaftlicher Aufgaben zeigt. Das Vorhandensein von Agenten, die bestehende Arbeiten reproduzieren können, ist ein notwendiger Schritt hin zur Entwicklung von Agenten, die neuartige Forschung betreiben können und die Leistung anderer Forschungsagenten überprüfen und verbessern könnten. Wir hoffen, dass CORE-Bench den Stand der Reproduzierbarkeit verbessern und die Entwicklung zukünftiger Forschungsagenten vorantreiben kann.
English
AI agents have the potential to aid users on a variety of consequential
tasks, including conducting scientific research. To spur the development of
useful agents, we need benchmarks that are challenging, but more crucially,
directly correspond to real-world tasks of interest. This paper introduces such
a benchmark, designed to measure the accuracy of AI agents in tackling a
crucial yet surprisingly challenging aspect of scientific research:
computational reproducibility. This task, fundamental to the scientific
process, involves reproducing the results of a study using the provided code
and data. We introduce CORE-Bench (Computational Reproducibility Agent
Benchmark), a benchmark consisting of 270 tasks based on 90 scientific papers
across three disciplines (computer science, social science, and medicine).
Tasks in CORE-Bench consist of three difficulty levels and include both
language-only and vision-language tasks. We provide an evaluation system to
measure the accuracy of agents in a fast and parallelizable way, saving days of
evaluation time for each run compared to a sequential implementation. We
evaluated two baseline agents: the general-purpose AutoGPT and a task-specific
agent called CORE-Agent. We tested both variants using two underlying language
models: GPT-4o and GPT-4o-mini. The best agent achieved an accuracy of 21% on
the hardest task, showing the vast scope for improvement in automating routine
scientific tasks. Having agents that can reproduce existing work is a necessary
step towards building agents that can conduct novel research and could verify
and improve the performance of other research agents. We hope that CORE-Bench
can improve the state of reproducibility and spur the development of future
research agents.Summary
AI-Generated Summary