Могут ли универсальные агенты автоматизировать курирование данных?

Аннотация

Курирование обучающих данных — одна из наиболее важных, но при этом трудозатратных частей современной разработки ИИ: практики итеративно предлагают, реализуют, оценивают и пересматривают политики данных, опираясь на зашумленную обратную связь от бенчмарков. Мы задаемся вопросом, могут ли агенты-универсалы (generalist coding agents) автоматизировать этот цикл курирования данных. Мы представляем *Curation-Bench* — агентно-ориентированный бенчмарк, который фиксирует модель, рецепт обучения и набор для оценки, предоставляя агентам доступ к командной строке для просмотра данных, реализации политик, отправки их в фиксированный конвейер обучения/оценки и последующего пересмотра. В инстанциировании обучения по инструкциям на основе визуально-языковых моделей готовые агенты за десять итераций достигают сильных опубликованных базовых показателей отбора данных. Однако анализ траекторий выявляет устойчивый *разрыв между выполнением и исследованиями*: агенты в основном настраивают локальные варианты политик вместо изучения новых семейств политик, даже при наличии стратегических руководств и ссылок на статьи. Инфраструктурные решения, требующие на каждой итерации цитировать, инстанцировать и адаптировать предыдущий метод, смещают агентов в сторону направляемого методом исследования. Агент с такой инфраструктурой автономно составляет — без участия человека в разработке — политику отбора данных, превосходящую сильные опубликованные базовые показатели при использовании лишь десятой части их бюджета данных. В целом, текущие агенты способны выполнять цикл курирования, но надежное исследование данных требует инфраструктурной адаптации методов, а не только свободного формирования запросов. Код и бенчмарк опубликованы в открытом доступе.

English

Curating training data is among the most consequential yet labor-intensive parts of modern AI development: practitioners iteratively propose, implement, evaluate, and revise data policies against noisy benchmark feedback. We ask whether generalist coding agents can automate this data-curation loop. We introduce *Curation-Bench*, an agent-centric benchmark that fixes the model, training recipe, and evaluation suite while giving agents command-line access to inspect data, implement policies, submit them to a fixed training/evaluation pipeline, and revise. In a vision-language instruction-tuning instantiation, out-of-the-box agents reach strong published data-selection baselines within ten iterations. However, trajectory analysis reveals a persistent *execution-research gap*: agents mainly tune local policy variants rather than explore new policy families, even when given strategy guides and paper references. Scaffolds requiring each iteration to cite, instantiate, and adapt a prior method shift agents toward method-guided exploration. The scaffolded agent autonomously composes -- without human design input -- a data-selection policy that outperforms strong published baselines at one-tenth their data budget. Overall, current agents can run the curation loop, but reliable data research requires scaffolded method adaptation, not open-ended prompting alone. Code and benchmark are open-sourced.