EXP-Bench: L'IA può condurre esperimenti di ricerca sull'IA?
EXP-Bench: Can AI Conduct AI Research Experiments?
May 30, 2025
Autori: Patrick Tser Jern Kon, Jiachen Liu, Xinyi Zhu, Qiuyi Ding, Jingjia Peng, Jiarong Xing, Yibo Huang, Yiming Qiu, Jayanth Srinivasa, Myungjin Lee, Mosharaf Chowdhury, Matei Zaharia, Ang Chen
cs.AI
Abstract
L'automazione della ricerca sull'IA ha un enorme potenziale per accelerare il progresso scientifico, ma gli attuali agenti di IA faticano a gestire le complessità di esperimenti rigorosi e end-to-end. Introduciamo EXP-Bench, un nuovo benchmark progettato per valutare sistematicamente gli agenti di IA su esperimenti di ricerca completi tratti da pubblicazioni influenti nel campo dell'IA. Dato un quesito di ricerca e un codice iniziale incompleto, EXP-Bench sfida gli agenti di IA a formulare ipotesi, progettare e implementare procedure sperimentali, eseguirle e analizzare i risultati. Per consentire la creazione di compiti così intricati e autentici con un alto livello di fedeltà, abbiamo progettato una pipeline semi-autonoma per estrarre e strutturare dettagli sperimentali cruciali da questi articoli di ricerca e dal loro codice open-source associato. Grazie a questa pipeline, EXP-Bench ha curato 461 compiti di ricerca sull'IA tratti da 51 articoli di ricerca di alto livello. Le valutazioni di agenti basati su LLM di punta, come OpenHands e IterativeAgent, su EXP-Bench dimostrano capacità parziali: mentre i punteggi su aspetti sperimentali individuali, come la correttezza del design o dell'implementazione, raggiungono occasionalmente il 20-35%, il tasso di successo per esperimenti completi ed eseguibili è stato di appena lo 0,5%. Identificando questi colli di bottiglia e fornendo procedure sperimentali realistiche passo-passo, EXP-Bench si pone come uno strumento vitale per migliorare la capacità degli agenti di IA futuri di condurre esperimenti di ricerca sull'IA. EXP-Bench è open-source all'indirizzo https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench.
English
Automating AI research holds immense potential for accelerating scientific
progress, yet current AI agents struggle with the complexities of rigorous,
end-to-end experimentation. We introduce EXP-Bench, a novel benchmark designed
to systematically evaluate AI agents on complete research experiments sourced
from influential AI publications. Given a research question and incomplete
starter code, EXP-Bench challenges AI agents to formulate hypotheses, design
and implement experimental procedures, execute them, and analyze results. To
enable the creation of such intricate and authentic tasks with high-fidelity,
we design a semi-autonomous pipeline to extract and structure crucial
experimental details from these research papers and their associated
open-source code. With the pipeline, EXP-Bench curated 461 AI research tasks
from 51 top-tier AI research papers. Evaluations of leading LLM-based agents,
such as OpenHands and IterativeAgent on EXP-Bench demonstrate partial
capabilities: while scores on individual experimental aspects such as design or
implementation correctness occasionally reach 20-35%, the success rate for
complete, executable experiments was a mere 0.5%. By identifying these
bottlenecks and providing realistic step-by-step experiment procedures,
EXP-Bench serves as a vital tool for future AI agents to improve their ability
to conduct AI research experiments. EXP-Bench is open-sourced at
https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench.