EXP-Bench: A IA Pode Realizar Experimentos de Pesquisa em IA?
EXP-Bench: Can AI Conduct AI Research Experiments?
May 30, 2025
Autores: Patrick Tser Jern Kon, Jiachen Liu, Xinyi Zhu, Qiuyi Ding, Jingjia Peng, Jiarong Xing, Yibo Huang, Yiming Qiu, Jayanth Srinivasa, Myungjin Lee, Mosharaf Chowdhury, Matei Zaharia, Ang Chen
cs.AI
Resumo
A automação da pesquisa em IA possui um potencial imenso para acelerar o progresso científico, mas os agentes de IA atuais enfrentam dificuldades com as complexidades de experimentações rigorosas e de ponta a ponta. Apresentamos o EXP-Bench, um novo benchmark projetado para avaliar sistematicamente agentes de IA em experimentos de pesquisa completos, extraídos de publicações influentes na área de IA. Dada uma questão de pesquisa e um código inicial incompleto, o EXP-Bench desafia os agentes de IA a formular hipóteses, projetar e implementar procedimentos experimentais, executá-los e analisar os resultados. Para permitir a criação de tarefas tão complexas e autênticas com alta fidelidade, projetamos um pipeline semiautônomo para extrair e estruturar detalhes cruciais dos experimentos a partir desses artigos de pesquisa e de seus códigos-fonte associados. Com esse pipeline, o EXP-Bench curou 461 tarefas de pesquisa em IA, extraídas de 51 artigos de pesquisa de IA de alto nível. Avaliações de agentes baseados em LLM líderes, como OpenHands e IterativeAgent, no EXP-Bench demonstraram capacidades parciais: embora as pontuações em aspectos individuais dos experimentos, como o design ou a correta implementação, ocasionalmente alcancem 20-35%, a taxa de sucesso para experimentos completos e executáveis foi de apenas 0,5%. Ao identificar esses gargalos e fornecer procedimentos experimentais realistas passo a passo, o EXP-Bench serve como uma ferramenta vital para que futuros agentes de IA melhorem sua capacidade de conduzir experimentos de pesquisa em IA. O EXP-Bench é de código aberto e está disponível em https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench.
English
Automating AI research holds immense potential for accelerating scientific
progress, yet current AI agents struggle with the complexities of rigorous,
end-to-end experimentation. We introduce EXP-Bench, a novel benchmark designed
to systematically evaluate AI agents on complete research experiments sourced
from influential AI publications. Given a research question and incomplete
starter code, EXP-Bench challenges AI agents to formulate hypotheses, design
and implement experimental procedures, execute them, and analyze results. To
enable the creation of such intricate and authentic tasks with high-fidelity,
we design a semi-autonomous pipeline to extract and structure crucial
experimental details from these research papers and their associated
open-source code. With the pipeline, EXP-Bench curated 461 AI research tasks
from 51 top-tier AI research papers. Evaluations of leading LLM-based agents,
such as OpenHands and IterativeAgent on EXP-Bench demonstrate partial
capabilities: while scores on individual experimental aspects such as design or
implementation correctness occasionally reach 20-35%, the success rate for
complete, executable experiments was a mere 0.5%. By identifying these
bottlenecks and providing realistic step-by-step experiment procedures,
EXP-Bench serves as a vital tool for future AI agents to improve their ability
to conduct AI research experiments. EXP-Bench is open-sourced at
https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench.