¿Pueden los agentes generalistas automatizar la curaduría de datos?

Resumen

La selección de datos de entrenamiento se encuentra entre las tareas más importantes, aunque intensivas en mano de obra, del desarrollo moderno de inteligencia artificial: los profesionales proponen, implementan, evalúan y revisan de forma iterativa políticas de datos a partir de retroalimentación ruidosa de evaluaciones comparativas. Nos preguntamos si los agentes codificadores generalistas pueden automatizar este bucle de curado de datos. Presentamos *Curation-Bench*, un benchmark centrado en agentes que fija el modelo, la receta de entrenamiento y el conjunto de evaluación, a la vez que otorga a los agentes acceso por línea de comandos para inspeccionar datos, implementar políticas, enviarlas a un pipeline fijo de entrenamiento/evaluación y revisarlas. En una instanciación de ajuste por instrucciones en visión-lenguaje, los agentes listos para usar alcanzan sólidas líneas base publicadas de selección de datos en diez iteraciones. Sin embargo, el análisis de trayectorias revela una persistente *brecha entre ejecución e investigación*: los agentes principalmente ajustan variantes locales de política en lugar de explorar nuevas familias de políticas, incluso cuando se les proporcionan guías estratégicas y referencias de artículos. Los andamios (scaffolds) que exigen que cada iteración cite, instancie y adapte un método previo orientan a los agentes hacia una exploración guiada por métodos. El agente con andamiaje compone de forma autónoma —sin intervención humana en el diseño— una política de selección de datos que supera sólidas líneas base publicadas con una décima parte de su presupuesto de datos. En general, los agentes actuales pueden ejecutar el bucle de curado, pero una investigación de datos fiable requiere adaptación de métodos asistida por andamiaje, no solo indicaciones abiertas (prompting). El código y el benchmark son de código abierto.

English

Curating training data is among the most consequential yet labor-intensive parts of modern AI development: practitioners iteratively propose, implement, evaluate, and revise data policies against noisy benchmark feedback. We ask whether generalist coding agents can automate this data-curation loop. We introduce *Curation-Bench*, an agent-centric benchmark that fixes the model, training recipe, and evaluation suite while giving agents command-line access to inspect data, implement policies, submit them to a fixed training/evaluation pipeline, and revise. In a vision-language instruction-tuning instantiation, out-of-the-box agents reach strong published data-selection baselines within ten iterations. However, trajectory analysis reveals a persistent *execution-research gap*: agents mainly tune local policy variants rather than explore new policy families, even when given strategy guides and paper references. Scaffolds requiring each iteration to cite, instantiate, and adapt a prior method shift agents toward method-guided exploration. The scaffolded agent autonomously composes -- without human design input -- a data-selection policy that outperforms strong published baselines at one-tenth their data budget. Overall, current agents can run the curation loop, but reliable data research requires scaffolded method adaptation, not open-ended prompting alone. Code and benchmark are open-sourced.