Les agents généralistes peuvent-ils automatiser la curation des données ?

Résumé

La curation des données d'entraînement constitue l'un des aspects les plus déterminants, mais aussi les plus exigeants en main-d'œuvre, du développement moderne de l'IA : les praticiens itèrent en proposant, mettant en œuvre, évaluant et révisant des politiques de données face à des retours de benchmark bruités. Nous nous demandons si des agents codeurs généralistes peuvent automatiser cette boucle de curation de données. Nous présentons *Curation-Bench*, un benchmark centré sur l'agent qui fixe le modèle, la recette d'entraînement et la suite d'évaluation, tout en donnant aux agents un accès en ligne de commande pour inspecter les données, mettre en œuvre des politiques, les soumettre à un pipeline fixe d'entraînement/évaluation et les réviser. Dans une instanciation d'instruction-tuning vision-langage, des agents prêts à l'emploi atteignent des références solides publiées en matière de sélection de données en moins de dix itérations. Cependant, l'analyse des trajectoires révèle un *écart persistant entre exécution et recherche* : les agents ajustent principalement des variantes locales de politiques plutôt que d'explorer de nouvelles familles de politiques, même lorsqu'on leur fournit des guides stratégiques et des références d'articles. Des échafaudages exigeant que chaque itération cite, instancie et adapte une méthode antérieure orientent les agents vers une exploration guidée par les méthodes. L'agent échafaudé compose de manière autonome — sans intervention humaine dans la conception — une politique de sélection de données qui surpasse des références publiées solides avec un dixième de leur budget de données. Dans l'ensemble, les agents actuels peuvent exécuter la boucle de curation, mais une recherche fiable sur les données nécessite une adaptation méthodique échafaudée, et non un simple prompting ouvert. Le code et le benchmark sont en open source.

English

Curating training data is among the most consequential yet labor-intensive parts of modern AI development: practitioners iteratively propose, implement, evaluate, and revise data policies against noisy benchmark feedback. We ask whether generalist coding agents can automate this data-curation loop. We introduce *Curation-Bench*, an agent-centric benchmark that fixes the model, training recipe, and evaluation suite while giving agents command-line access to inspect data, implement policies, submit them to a fixed training/evaluation pipeline, and revise. In a vision-language instruction-tuning instantiation, out-of-the-box agents reach strong published data-selection baselines within ten iterations. However, trajectory analysis reveals a persistent *execution-research gap*: agents mainly tune local policy variants rather than explore new policy families, even when given strategy guides and paper references. Scaffolds requiring each iteration to cite, instantiate, and adapt a prior method shift agents toward method-guided exploration. The scaffolded agent autonomously composes -- without human design input -- a data-selection policy that outperforms strong published baselines at one-tenth their data budget. Overall, current agents can run the curation loop, but reliable data research requires scaffolded method adaptation, not open-ended prompting alone. Code and benchmark are open-sourced.