Explorando a Engenharia de Dados Autônoma e Baseada em Agentes para Especialização de Modelos

Resumo

Modelos de Linguagem de Grande Porte (LLMs) demonstraram desempenho robusto em tarefas gerais, mas frequentemente enfrentam dificuldades para se adaptar a domínios especializados na ausência de dados específicos de alta qualidade. Os métodos existentes de curadoria de dados baseados em LLMs dependem principalmente de fluxos de trabalho projetados por humanos, deixando inexplorada a questão de se os LLMs podem executar autonomamente um pipeline completo de engenharia de dados para especialização de modelos. Formalizamos a Engenharia Autônoma de Dados Baseada em Agentes, uma nova tarefa projetada para avaliar LLMs como engenheiros de dados autônomos que conduzem a especialização de modelos por meio de curadoria de dados de ponta a ponta. Enquadramos os dados como um componente otimizável e estudamos agentes que planejam, geram e otimizam iterativamente dados de treinamento em múltiplos domínios, guiados pela melhoria de desempenho pós-treinamento. Os experimentos mostram que engenheiros de dados LLM autônomos produzem ganhos substanciais, com o GPT-5.2 construindo um currículo de treinamento que melhora um modelo aluno em 57,29%, inteiramente por meio de adaptação iterativa de dados conduzida por agentes. Ao iluminar tanto o potencial quanto os gargalos, nosso estudo estabelece a engenharia autônoma de dados como uma capacidade mensurável e traça um caminho em direção à especialização de modelos conduzida por agentes. O código será disponibilizado em https://github.com/zjunlp/DataAgent.

English

Large Language Models (LLMs) have demonstrated strong performance on general tasks, while often struggling to adapt to specialized domains without high-quality domain-specific data. Existing LLM-based data curation methods primarily rely on human-designed workflows, leaving it unexamined whether LLMs can autonomously execute an end-to-end data engineering pipeline for model specialization. We formalize Autonomous Agentic Data Engineering, a novel task designed to evaluate LLMs as autonomous data engineers that drive model specialization through end-to-end data curation. We frame data as an optimizable component and study agents that plan, generate, and iteratively optimize training data across multiple domains, guided by post-training performance improvement. Experiments show that autonomous LLM data engineers yield substantial gains, as GPT-5.2 constructs a training curriculum that improves a student model by 57.29\%, entirely through iterative, agent-driven data adaptation. By illuminating both potential and bottlenecks, our study establishes autonomous data engineering as a measurable capability and charts a path toward agent-driven model specializationCode will be released at https://github.com/zjunlp/DataAgent..