EXP-Bench: ¿Puede la IA realizar experimentos de investigación en IA?

Resumen

La automatización de la investigación en IA tiene un inmenso potencial para acelerar el progreso científico, aunque los agentes de IA actuales enfrentan dificultades con las complejidades de la experimentación rigurosa de principio a fin. Presentamos EXP-Bench, un nuevo punto de referencia diseñado para evaluar sistemáticamente a los agentes de IA en experimentos de investigación completos extraídos de publicaciones influyentes en IA. Dada una pregunta de investigación y un código inicial incompleto, EXP-Bench desafía a los agentes de IA a formular hipótesis, diseñar e implementar procedimientos experimentales, ejecutarlos y analizar los resultados. Para permitir la creación de tareas tan intrincadas y auténticas con alta fidelidad, diseñamos una pipeline semi-autónoma para extraer y estructurar detalles cruciales de los experimentos a partir de estos artículos de investigación y su código fuente asociado. Con esta pipeline, EXP-Bench ha curado 461 tareas de investigación en IA provenientes de 51 artículos de investigación de IA de primer nivel. Las evaluaciones de agentes líderes basados en modelos de lenguaje, como OpenHands e IterativeAgent, en EXP-Bench demuestran capacidades parciales: aunque las puntuaciones en aspectos individuales del experimento, como el diseño o la corrección de la implementación, ocasionalmente alcanzan el 20-35%, la tasa de éxito para experimentos completos y ejecutables fue de apenas un 0.5%. Al identificar estos cuellos de botella y proporcionar procedimientos experimentales realistas paso a paso, EXP-Bench sirve como una herramienta vital para que los futuros agentes de IA mejoren su capacidad para llevar a cabo experimentos de investigación en IA. EXP-Bench es de código abierto en https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench.

English

Automating AI research holds immense potential for accelerating scientific progress, yet current AI agents struggle with the complexities of rigorous, end-to-end experimentation. We introduce EXP-Bench, a novel benchmark designed to systematically evaluate AI agents on complete research experiments sourced from influential AI publications. Given a research question and incomplete starter code, EXP-Bench challenges AI agents to formulate hypotheses, design and implement experimental procedures, execute them, and analyze results. To enable the creation of such intricate and authentic tasks with high-fidelity, we design a semi-autonomous pipeline to extract and structure crucial experimental details from these research papers and their associated open-source code. With the pipeline, EXP-Bench curated 461 AI research tasks from 51 top-tier AI research papers. Evaluations of leading LLM-based agents, such as OpenHands and IterativeAgent on EXP-Bench demonstrate partial capabilities: while scores on individual experimental aspects such as design or implementation correctness occasionally reach 20-35%, the success rate for complete, executable experiments was a mere 0.5%. By identifying these bottlenecks and providing realistic step-by-step experiment procedures, EXP-Bench serves as a vital tool for future AI agents to improve their ability to conduct AI research experiments. EXP-Bench is open-sourced at https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench.

EXP-Bench: ¿Puede la IA realizar experimentos de investigación en IA?

EXP-Bench: Can AI Conduct AI Research Experiments?

Resumen

Support