EXP-Bench: Kan AI AI-onderzoeksexperimenten uitvoeren?
EXP-Bench: Can AI Conduct AI Research Experiments?
May 30, 2025
Auteurs: Patrick Tser Jern Kon, Jiachen Liu, Xinyi Zhu, Qiuyi Ding, Jingjia Peng, Jiarong Xing, Yibo Huang, Yiming Qiu, Jayanth Srinivasa, Myungjin Lee, Mosharaf Chowdhury, Matei Zaharia, Ang Chen
cs.AI
Samenvatting
Het automatiseren van AI-onderzoek biedt enorm potentieel om wetenschappelijke vooruitgang te versnellen, maar huidige AI-agenten worstelen met de complexiteiten van rigoureus, end-to-end experimenteren. We introduceren EXP-Bench, een nieuwe benchmark die is ontworpen om AI-agenten systematisch te evalueren op complete onderzoeksexperimenten afkomstig uit invloedrijke AI-publicaties. Gegeven een onderzoeksvraag en onvolledige startcode, daagt EXP-Bench AI-agenten uit om hypothesen te formuleren, experimentele procedures te ontwerpen en te implementeren, deze uit te voeren en resultaten te analyseren. Om het creëren van dergelijke ingewikkelde en authentieke taken met hoge betrouwbaarheid mogelijk te maken, hebben we een semi-autonome pijplijn ontworpen om cruciale experimentele details uit deze onderzoeksartikelen en hun bijbehorende open-source code te extraheren en te structureren. Met deze pijplijn heeft EXP-Bench 461 AI-onderzoekstaken samengesteld uit 51 toonaangevende AI-onderzoeksartikelen. Evaluaties van toonaangevende LLM-gebaseerde agenten, zoals OpenHands en IterativeAgent op EXP-Bench, tonen gedeeltelijke capaciteiten aan: hoewel scores op individuele experimentele aspecten zoals ontwerp of implementatiecorrectheid af en toe 20-35% bereiken, was het slagingspercentage voor complete, uitvoerbare experimenten slechts 0,5%. Door deze knelpunten te identificeren en realistische stapsgewijze experimentprocedures te bieden, dient EXP-Bench als een cruciaal hulpmiddel voor toekomstige AI-agenten om hun vermogen om AI-onderzoeksexperimenten uit te voeren te verbeteren. EXP-Bench is open-source beschikbaar op https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench.
English
Automating AI research holds immense potential for accelerating scientific
progress, yet current AI agents struggle with the complexities of rigorous,
end-to-end experimentation. We introduce EXP-Bench, a novel benchmark designed
to systematically evaluate AI agents on complete research experiments sourced
from influential AI publications. Given a research question and incomplete
starter code, EXP-Bench challenges AI agents to formulate hypotheses, design
and implement experimental procedures, execute them, and analyze results. To
enable the creation of such intricate and authentic tasks with high-fidelity,
we design a semi-autonomous pipeline to extract and structure crucial
experimental details from these research papers and their associated
open-source code. With the pipeline, EXP-Bench curated 461 AI research tasks
from 51 top-tier AI research papers. Evaluations of leading LLM-based agents,
such as OpenHands and IterativeAgent on EXP-Bench demonstrate partial
capabilities: while scores on individual experimental aspects such as design or
implementation correctness occasionally reach 20-35%, the success rate for
complete, executable experiments was a mere 0.5%. By identifying these
bottlenecks and providing realistic step-by-step experiment procedures,
EXP-Bench serves as a vital tool for future AI agents to improve their ability
to conduct AI research experiments. EXP-Bench is open-sourced at
https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench.