Podem Agentes Generalistas Automatizar a Curadoria de Dados?

Resumo

Curar dados de treinamento está entre as partes mais impactantes e trabalhosas do desenvolvimento moderno de IA: profissionais propõem, implementam, avaliam e revisam iterativamente políticas de dados com base em feedback ruidoso de benchmarks. Investigamos se agentes codificadores generalistas podem automatizar esse ciclo de curadoria de dados. Apresentamos o *Curation-Bench*, um benchmark centrado em agente que fixa o modelo, a receita de treinamento e o conjunto de avaliação, ao mesmo tempo que concede aos agentes acesso via linha de comando para inspecionar dados, implementar políticas, submetê-las a um pipeline fixo de treinamento/avaliação e revisá-las. Em uma instanciação de ajuste de instrução visão-linguagem, agentes prontos para uso alcançam fortes linhas de base publicadas de seleção de dados em até dez iterações. No entanto, a análise de trajetórias revela uma persistente *lacuna entre execução e pesquisa*: os agentes ajustam principalmente variantes locais de políticas, em vez de explorar novas famílias de políticas, mesmo quando recebem guias de estratégia e referências a artigos. Estruturas de suporte que exigem que cada iteração cite, instancie e adapte um método prévio direcionam os agentes para uma exploração guiada por métodos. O agente com suporte compõe autonomamente — sem intervenção humana de design — uma política de seleção de dados que supera fortes linhas de base publicadas com um décimo do orçamento de dados delas. No geral, agentes atuais podem executar o ciclo de curadoria, mas uma pesquisa confiável de dados requer adaptação metódica com suporte estrutural, e não apenas instruções abertas. O código e o benchmark são disponibilizados como código aberto.

English

Curating training data is among the most consequential yet labor-intensive parts of modern AI development: practitioners iteratively propose, implement, evaluate, and revise data policies against noisy benchmark feedback. We ask whether generalist coding agents can automate this data-curation loop. We introduce *Curation-Bench*, an agent-centric benchmark that fixes the model, training recipe, and evaluation suite while giving agents command-line access to inspect data, implement policies, submit them to a fixed training/evaluation pipeline, and revise. In a vision-language instruction-tuning instantiation, out-of-the-box agents reach strong published data-selection baselines within ten iterations. However, trajectory analysis reveals a persistent *execution-research gap*: agents mainly tune local policy variants rather than explore new policy families, even when given strategy guides and paper references. Scaffolds requiring each iteration to cite, instantiate, and adapt a prior method shift agents toward method-guided exploration. The scaffolded agent autonomously composes -- without human design input -- a data-selection policy that outperforms strong published baselines at one-tenth their data budget. Overall, current agents can run the curation loop, but reliable data research requires scaffolded method adaptation, not open-ended prompting alone. Code and benchmark are open-sourced.