EXP-Bench: Kann KI KI-Forschungsexperimente durchführen?
EXP-Bench: Can AI Conduct AI Research Experiments?
May 30, 2025
Autoren: Patrick Tser Jern Kon, Jiachen Liu, Xinyi Zhu, Qiuyi Ding, Jingjia Peng, Jiarong Xing, Yibo Huang, Yiming Qiu, Jayanth Srinivasa, Myungjin Lee, Mosharaf Chowdhury, Matei Zaharia, Ang Chen
cs.AI
Zusammenfassung
Die Automatisierung der KI-Forschung birgt enormes Potenzial, um den wissenschaftlichen Fortschritt zu beschleunigen, doch aktuelle KI-Agenten haben Schwierigkeiten mit den Komplexitäten rigoroser, end-to-end-Experimente. Wir stellen EXP-Bench vor, einen neuartigen Benchmark, der entwickelt wurde, um KI-Agenten systematisch anhand vollständiger Forschungsexperimente zu bewerten, die aus einflussreichen KI-Publikationen stammen. Bei einer gegebenen Forschungsfrage und unvollständigem Startcode fordert EXP-Bench KI-Agenten heraus, Hypothesen zu formulieren, experimentelle Verfahren zu entwerfen und zu implementieren, diese auszuführen und die Ergebnisse zu analysieren. Um die Erstellung solch komplexer und authentischer Aufgaben mit hoher Genauigkeit zu ermöglichen, haben wir eine halbautonome Pipeline entwickelt, um entscheidende experimentelle Details aus diesen Forschungsarbeiten und dem zugehörigen Open-Source-Code zu extrahieren und zu strukturieren. Mit dieser Pipeline hat EXP-Bench 461 KI-Forschungsaufgaben aus 51 hochrangigen KI-Forschungsarbeiten kuratiert. Bewertungen führender LLM-basierter Agenten wie OpenHands und IterativeAgent auf EXP-Bench zeigen teilweise Fähigkeiten: Während die Bewertungen für einzelne experimentelle Aspekte wie die Korrektheit des Designs oder der Implementierung gelegentlich 20-35 % erreichen, lag die Erfolgsrate für vollständige, ausführbare Experimente bei lediglich 0,5 %. Indem EXP-Bench diese Engpässe identifiziert und realistische Schritt-für-Schritt-Experimentverfahren bereitstellt, dient es als wichtiges Werkzeug für zukünftige KI-Agenten, um ihre Fähigkeit zur Durchführung von KI-Forschungsexperimenten zu verbessern. EXP-Bench ist unter https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench open-source verfügbar.
English
Automating AI research holds immense potential for accelerating scientific
progress, yet current AI agents struggle with the complexities of rigorous,
end-to-end experimentation. We introduce EXP-Bench, a novel benchmark designed
to systematically evaluate AI agents on complete research experiments sourced
from influential AI publications. Given a research question and incomplete
starter code, EXP-Bench challenges AI agents to formulate hypotheses, design
and implement experimental procedures, execute them, and analyze results. To
enable the creation of such intricate and authentic tasks with high-fidelity,
we design a semi-autonomous pipeline to extract and structure crucial
experimental details from these research papers and their associated
open-source code. With the pipeline, EXP-Bench curated 461 AI research tasks
from 51 top-tier AI research papers. Evaluations of leading LLM-based agents,
such as OpenHands and IterativeAgent on EXP-Bench demonstrate partial
capabilities: while scores on individual experimental aspects such as design or
implementation correctness occasionally reach 20-35%, the success rate for
complete, executable experiments was a mere 0.5%. By identifying these
bottlenecks and providing realistic step-by-step experiment procedures,
EXP-Bench serves as a vital tool for future AI agents to improve their ability
to conduct AI research experiments. EXP-Bench is open-sourced at
https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench.