ChatPaper.aiChatPaper

EXP-Bench : L'IA peut-elle mener des expériences de recherche en IA ?

EXP-Bench: Can AI Conduct AI Research Experiments?

May 30, 2025
Auteurs: Patrick Tser Jern Kon, Jiachen Liu, Xinyi Zhu, Qiuyi Ding, Jingjia Peng, Jiarong Xing, Yibo Huang, Yiming Qiu, Jayanth Srinivasa, Myungjin Lee, Mosharaf Chowdhury, Matei Zaharia, Ang Chen
cs.AI

Résumé

L'automatisation de la recherche en IA présente un potentiel immense pour accélérer les progrès scientifiques, mais les agents d'IA actuels peinent à gérer les complexités des expérimentations rigoureuses et complètes. Nous présentons EXP-Bench, un nouveau benchmark conçu pour évaluer systématiquement les agents d'IA sur des expériences de recherche complètes issues de publications influentes en IA. Étant donné une question de recherche et un code de départ incomplet, EXP-Bench met au défi les agents d'IA de formuler des hypothèses, de concevoir et de mettre en œuvre des procédures expérimentales, de les exécuter et d'analyser les résultats. Pour permettre la création de tâches aussi complexes et authentiques avec une haute fidélité, nous avons conçu un pipeline semi-autonome pour extraire et structurer les détails expérimentaux cruciaux de ces articles de recherche et de leur code open-source associé. Grâce à ce pipeline, EXP-Bench a sélectionné 461 tâches de recherche en IA issues de 51 articles de recherche de premier plan en IA. Les évaluations des principaux agents basés sur des modèles de langage, tels que OpenHands et IterativeAgent, sur EXP-Bench montrent des capacités partielles : bien que les scores sur des aspects individuels de l'expérience, comme la conception ou la correction de l'implémentation, atteignent occasionnellement 20 à 35 %, le taux de réussite pour des expériences complètes et exécutables n'était que de 0,5 %. En identifiant ces goulots d'étranglement et en fournissant des procédures expérimentales réalistes étape par étape, EXP-Bench sert d'outil essentiel pour que les futurs agents d'IA améliorent leur capacité à mener des expériences de recherche en IA. EXP-Bench est open-source à l'adresse https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench.
English
Automating AI research holds immense potential for accelerating scientific progress, yet current AI agents struggle with the complexities of rigorous, end-to-end experimentation. We introduce EXP-Bench, a novel benchmark designed to systematically evaluate AI agents on complete research experiments sourced from influential AI publications. Given a research question and incomplete starter code, EXP-Bench challenges AI agents to formulate hypotheses, design and implement experimental procedures, execute them, and analyze results. To enable the creation of such intricate and authentic tasks with high-fidelity, we design a semi-autonomous pipeline to extract and structure crucial experimental details from these research papers and their associated open-source code. With the pipeline, EXP-Bench curated 461 AI research tasks from 51 top-tier AI research papers. Evaluations of leading LLM-based agents, such as OpenHands and IterativeAgent on EXP-Bench demonstrate partial capabilities: while scores on individual experimental aspects such as design or implementation correctness occasionally reach 20-35%, the success rate for complete, executable experiments was a mere 0.5%. By identifying these bottlenecks and providing realistic step-by-step experiment procedures, EXP-Bench serves as a vital tool for future AI agents to improve their ability to conduct AI research experiments. EXP-Bench is open-sourced at https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench.
PDF223June 2, 2025