Können Generalisten-Agenten die Datenkuratierung automatisieren?

Zusammenfassung

Die Kuratierung von Trainingsdaten gehört zu den folgenreichsten, aber auch arbeitsintensivsten Teilen der modernen KI-Entwicklung: Praktiker iterieren wiederholt, indem sie Datenrichtlinien vorschlagen, umsetzen, evaluieren und auf der Grundlage verrauschter Benchmark-Rückmeldungen überarbeiten. Wir untersuchen, ob universelle Codierungsagenten diese Datakurierungsschleife automatisieren können. Wir führen *Curation-Bench* ein, einen agentenzentrierten Benchmark, der das Modell, das Training-Rezept und die Evaluationssuite festlegt, während Agenten Kommandozeilenzugriff erhalten, um Daten zu inspizieren, Richtlinien umzusetzen, sie an eine festgelegte Trainings-/Evaluationspipeline zu übermitteln und zu überarbeiten. In einer Instanz des Instruktions-Tunings für Vision und Sprache erreichen unveränderte Agenten innerhalb von zehn Iterationen starke publizierte Datenauswahl-Basislinien. Die Analyse der Trajektorien offenbart jedoch eine anhaltende *Ausführungs-Forschungslücke*: Agenten stimmen hauptsächlich lokale Policy-Varianten ab, anstatt neue Policy-Familien zu erkunden – selbst wenn sie Strategieanleitungen und Paper-Referenzen erhalten. Gestelle, die von jeder Iteration verlangen, eine frühere Methode zu zitieren, zu instantiieren und anzupassen, verlagern Agenten hin zu methodengeleiteter Erkundung. Der gestützte Agent setzt – ohne menschlichen Design-Input – eigenständig eine Datenauswahl-Policy zusammen, die starke publizierte Basislinien bei einem Zehntel ihres Datenbudgets übertrifft. Insgesamt können aktuelle Agenten die Kurierungsschleife betreiben, aber zuverlässige Datenforschung erfordert gestützte Methodenanpassung, nicht nur offene Aufforderungen allein. Code und Benchmark sind als Open Source verfügbar.

English

Curating training data is among the most consequential yet labor-intensive parts of modern AI development: practitioners iteratively propose, implement, evaluate, and revise data policies against noisy benchmark feedback. We ask whether generalist coding agents can automate this data-curation loop. We introduce *Curation-Bench*, an agent-centric benchmark that fixes the model, training recipe, and evaluation suite while giving agents command-line access to inspect data, implement policies, submit them to a fixed training/evaluation pipeline, and revise. In a vision-language instruction-tuning instantiation, out-of-the-box agents reach strong published data-selection baselines within ten iterations. However, trajectory analysis reveals a persistent *execution-research gap*: agents mainly tune local policy variants rather than explore new policy families, even when given strategy guides and paper references. Scaffolds requiring each iteration to cite, instantiate, and adapt a prior method shift agents toward method-guided exploration. The scaffolded agent autonomously composes -- without human design input -- a data-selection policy that outperforms strong published baselines at one-tenth their data budget. Overall, current agents can run the curation loop, but reliable data research requires scaffolded method adaptation, not open-ended prompting alone. Code and benchmark are open-sourced.