Исследование автономной агентной инженерии данных для специализации моделей

Аннотация

Большие языковые модели (Large Language Models, LLM) демонстрируют высокую производительность в общих задачах, однако часто испытывают трудности при адаптации к специализированным областям без наличия качественных доменно-специфичных данных. Существующие методы курирования данных на основе LLM в основном опираются на ручные рабочие процессы, при этом остается неисследованным, могут ли LLM автономно выполнять сквозной конвейер инженерии данных для специализации модели. Мы формализуем автономную агентную инженерию данных (Autonomous Agentic Data Engineering) — новую задачу, предназначенную для оценки LLM в роли автономных инженеров данных, которые управляют специализацией модели посредством сквозного курирования данных. Мы рассматриваем данные как оптимизируемый компонент и изучаем агентов, которые планируют, генерируют и итеративно оптимизируют обучающие данные в нескольких областях, руководствуясь улучшением производительности после обучения. Эксперименты показывают, что автономные LLM-инженеры данных обеспечивают значительный прирост: GPT-5.2 создает учебную программу, которая повышает производительность модели-ученика на 57,29% исключительно за счет итеративной, управляемой агентом адаптации данных. Освещая как потенциал, так и узкие места, наше исследование утверждает автономную инженерию данных как измеримую способность и прокладывает путь к управляемой агентом специализации моделей. Код будет опубликован по адресу https://github.com/zjunlp/DataAgent.

English

Large Language Models (LLMs) have demonstrated strong performance on general tasks, while often struggling to adapt to specialized domains without high-quality domain-specific data. Existing LLM-based data curation methods primarily rely on human-designed workflows, leaving it unexamined whether LLMs can autonomously execute an end-to-end data engineering pipeline for model specialization. We formalize Autonomous Agentic Data Engineering, a novel task designed to evaluate LLMs as autonomous data engineers that drive model specialization through end-to-end data curation. We frame data as an optimizable component and study agents that plan, generate, and iteratively optimize training data across multiple domains, guided by post-training performance improvement. Experiments show that autonomous LLM data engineers yield substantial gains, as GPT-5.2 constructs a training curriculum that improves a student model by 57.29\%, entirely through iterative, agent-driven data adaptation. By illuminating both potential and bottlenecks, our study establishes autonomous data engineering as a measurable capability and charts a path toward agent-driven model specializationCode will be released at https://github.com/zjunlp/DataAgent..