ChatPaper.aiChatPaper

EXP-Bench: Способен ли ИИ проводить эксперименты в области исследований ИИ?

EXP-Bench: Can AI Conduct AI Research Experiments?

May 30, 2025
Авторы: Patrick Tser Jern Kon, Jiachen Liu, Xinyi Zhu, Qiuyi Ding, Jingjia Peng, Jiarong Xing, Yibo Huang, Yiming Qiu, Jayanth Srinivasa, Myungjin Lee, Mosharaf Chowdhury, Matei Zaharia, Ang Chen
cs.AI

Аннотация

Автоматизация исследований в области ИИ обладает огромным потенциалом для ускорения научного прогресса, однако современные ИИ-агенты сталкиваются с трудностями при работе со сложностями строгих, сквозных экспериментов. Мы представляем EXP-Bench — новый эталонный тест, разработанный для систематической оценки ИИ-агентов на основе полных исследовательских экспериментов, взятых из влиятельных публикаций в области ИИ. Имея исследовательский вопрос и неполный стартовый код, EXP-Bench ставит перед ИИ-агентами задачу формулировать гипотезы, разрабатывать и реализовывать экспериментальные процедуры, выполнять их и анализировать результаты. Для создания таких сложных и аутентичных задач с высокой точностью мы разработали полуавтономный процесс извлечения и структурирования ключевых экспериментальных деталей из этих научных статей и связанного с ними открытого исходного кода. С помощью этого процесса EXP-Bench собрал 461 задачу из 51 ведущей научной статьи в области ИИ. Оценка ведущих ИИ-агентов на основе языковых моделей, таких как OpenHands и IterativeAgent, на EXP-Bench показала частичные возможности: хотя оценки за отдельные аспекты экспериментов, такие как корректность дизайна или реализации, иногда достигают 20–35%, успешность выполнения полных, исполняемых экспериментов составила всего 0,5%. Выявляя эти узкие места и предоставляя реалистичные пошаговые процедуры экспериментов, EXP-Bench служит важным инструментом для будущих ИИ-агентов, чтобы улучшить их способность проводить исследования в области ИИ. EXP-Bench доступен в открытом доступе по адресу: https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench.
English
Automating AI research holds immense potential for accelerating scientific progress, yet current AI agents struggle with the complexities of rigorous, end-to-end experimentation. We introduce EXP-Bench, a novel benchmark designed to systematically evaluate AI agents on complete research experiments sourced from influential AI publications. Given a research question and incomplete starter code, EXP-Bench challenges AI agents to formulate hypotheses, design and implement experimental procedures, execute them, and analyze results. To enable the creation of such intricate and authentic tasks with high-fidelity, we design a semi-autonomous pipeline to extract and structure crucial experimental details from these research papers and their associated open-source code. With the pipeline, EXP-Bench curated 461 AI research tasks from 51 top-tier AI research papers. Evaluations of leading LLM-based agents, such as OpenHands and IterativeAgent on EXP-Bench demonstrate partial capabilities: while scores on individual experimental aspects such as design or implementation correctness occasionally reach 20-35%, the success rate for complete, executable experiments was a mere 0.5%. By identifying these bottlenecks and providing realistic step-by-step experiment procedures, EXP-Bench serves as a vital tool for future AI agents to improve their ability to conduct AI research experiments. EXP-Bench is open-sourced at https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench.
PDF223June 2, 2025