EXP-Bench: ¿Puede la IA realizar experimentos de investigación en IA?
EXP-Bench: Can AI Conduct AI Research Experiments?
May 30, 2025
Autores: Patrick Tser Jern Kon, Jiachen Liu, Xinyi Zhu, Qiuyi Ding, Jingjia Peng, Jiarong Xing, Yibo Huang, Yiming Qiu, Jayanth Srinivasa, Myungjin Lee, Mosharaf Chowdhury, Matei Zaharia, Ang Chen
cs.AI
Resumen
La automatización de la investigación en IA tiene un inmenso potencial para acelerar el progreso científico, aunque los agentes de IA actuales enfrentan dificultades con las complejidades de la experimentación rigurosa de principio a fin. Presentamos EXP-Bench, un nuevo punto de referencia diseñado para evaluar sistemáticamente a los agentes de IA en experimentos de investigación completos extraídos de publicaciones influyentes en IA. Dada una pregunta de investigación y un código inicial incompleto, EXP-Bench desafía a los agentes de IA a formular hipótesis, diseñar e implementar procedimientos experimentales, ejecutarlos y analizar los resultados. Para permitir la creación de tareas tan intrincadas y auténticas con alta fidelidad, diseñamos una pipeline semi-autónoma para extraer y estructurar detalles cruciales de los experimentos a partir de estos artículos de investigación y su código fuente asociado. Con esta pipeline, EXP-Bench ha curado 461 tareas de investigación en IA provenientes de 51 artículos de investigación de IA de primer nivel. Las evaluaciones de agentes líderes basados en modelos de lenguaje, como OpenHands e IterativeAgent, en EXP-Bench demuestran capacidades parciales: aunque las puntuaciones en aspectos individuales del experimento, como el diseño o la corrección de la implementación, ocasionalmente alcanzan el 20-35%, la tasa de éxito para experimentos completos y ejecutables fue de apenas un 0.5%. Al identificar estos cuellos de botella y proporcionar procedimientos experimentales realistas paso a paso, EXP-Bench sirve como una herramienta vital para que los futuros agentes de IA mejoren su capacidad para llevar a cabo experimentos de investigación en IA. EXP-Bench es de código abierto en https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench.
English
Automating AI research holds immense potential for accelerating scientific
progress, yet current AI agents struggle with the complexities of rigorous,
end-to-end experimentation. We introduce EXP-Bench, a novel benchmark designed
to systematically evaluate AI agents on complete research experiments sourced
from influential AI publications. Given a research question and incomplete
starter code, EXP-Bench challenges AI agents to formulate hypotheses, design
and implement experimental procedures, execute them, and analyze results. To
enable the creation of such intricate and authentic tasks with high-fidelity,
we design a semi-autonomous pipeline to extract and structure crucial
experimental details from these research papers and their associated
open-source code. With the pipeline, EXP-Bench curated 461 AI research tasks
from 51 top-tier AI research papers. Evaluations of leading LLM-based agents,
such as OpenHands and IterativeAgent on EXP-Bench demonstrate partial
capabilities: while scores on individual experimental aspects such as design or
implementation correctness occasionally reach 20-35%, the success rate for
complete, executable experiments was a mere 0.5%. By identifying these
bottlenecks and providing realistic step-by-step experiment procedures,
EXP-Bench serves as a vital tool for future AI agents to improve their ability
to conduct AI research experiments. EXP-Bench is open-sourced at
https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench.