Kunnen generalistische agenten datacuratie automatiseren?

Samenvatting

Het cureren van trainingsdata is een van de meest invloedrijke, maar ook meest arbeidsintensieve onderdelen van de moderne AI-ontwikkeling: beoefenaars itereren door het proposeren, implementeren, evalueren en herzien van databeleid op basis van ruisachtige benchmarkterugkoppeling. We vragen ons af of generalistische codeeragenten deze data-curatielus kunnen automatiseren. We introduceren *Curation-Bench*, een agent-centrische benchmark die het model, het trainingsrecept en de evaluatiesuite vastlegt, terwijl agenten via de commandoregel toegang krijgen om data te inspecteren, beleid te implementeren, deze in te dienen bij een vaste trainings-/evaluatiepijplijn en te herzien. In een instantiatie van visie-taal instructie-tuning bereiken out-of-the-box agenten binnen tien iteraties sterke gepubliceerde basislijnen voor dataselectie. Trajectanalyse onthult echter een aanhoudende *uitvoerings-onderzoekskloof*: agenten stemmen voornamelijk lokale beleidsvarianten af in plaats van nieuwe beleidsfamilies te verkennen, zelfs wanneer ze strategiegidsen en literatuurverwijzingen krijgen. Scaffolds die vereisen dat elke iteratie een eerdere methode citeert, instantiëert en aanpast, sturen agenten richting methodegestuurde verkenning. De scaffolded agent stelt autonoom – zonder menselijke ontwerpinbreng – een dataselectiebeleid samen dat beter presteert dan sterke gepubliceerde basislijnen met een tiende van hun databudget. Over het geheel genomen kunnen huidige agenten de curatielus doorlopen, maar betrouwbaar dataonderzoek vereist scaffolded methode-aanpassing, niet alleen open-eind prompting. Code en benchmark zijn open-source beschikbaar.

English

Curating training data is among the most consequential yet labor-intensive parts of modern AI development: practitioners iteratively propose, implement, evaluate, and revise data policies against noisy benchmark feedback. We ask whether generalist coding agents can automate this data-curation loop. We introduce *Curation-Bench*, an agent-centric benchmark that fixes the model, training recipe, and evaluation suite while giving agents command-line access to inspect data, implement policies, submit them to a fixed training/evaluation pipeline, and revise. In a vision-language instruction-tuning instantiation, out-of-the-box agents reach strong published data-selection baselines within ten iterations. However, trajectory analysis reveals a persistent *execution-research gap*: agents mainly tune local policy variants rather than explore new policy families, even when given strategy guides and paper references. Scaffolds requiring each iteration to cite, instantiate, and adapt a prior method shift agents toward method-guided exploration. The scaffolded agent autonomously composes -- without human design input -- a data-selection policy that outperforms strong published baselines at one-tenth their data budget. Overall, current agents can run the curation loop, but reliable data research requires scaffolded method adaptation, not open-ended prompting alone. Code and benchmark are open-sourced.