DataFlow: Um Framework Baseado em LLM para Preparação de Dados Unificada e Automação de Fluxos de Trabalho na Era da IA Centrada em Dados
DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI
December 18, 2025
Autores: Hao Liang, Xiaochen Ma, Zhou Liu, Zhen Hao Wong, Zhengyang Zhao, Zimo Meng, Runming He, Chengyu Shen, Qifeng Cai, Zhaoyang Han, Meiyi Qiang, Yalin Feng, Tianyi Bai, Zewei Pan, Ziyi Guo, Yizhen Jiang, Jingwen Deng, Qijie You, Peichao Lai, Tianyu Guo, Chi Hsu Tsai, Hengyi Feng, Rui Hu, Wenkai Yu, Junbo Niu, Bohan Zeng, Ruichuan An, Lu Ma, Jihao Huang, Yaowei Zheng, Conghui He, Linpeng Tang, Bin Cui, Weinan E, Wentao Zhang
cs.AI
Resumo
A crescente demanda por dados de alta qualidade em Modelos de Linguagem de Grande Porte (LLMs) intensificou a necessidade de pipelines de preparação de dados escaláveis, confiáveis e semanticamente ricos. No entanto, as práticas atuais ainda são dominadas por scripts ad-hoc e fluxos de trabalho vagamente especificados, que carecem de abstrações fundamentadas, prejudicam a reprodutibilidade e oferecem suporte limitado para a geração de dados com o modelo no loop. Para enfrentar esses desafios, apresentamos o DataFlow, um framework unificado e extensível para preparação de dados orientado por LLMs. O DataFlow foi projetado com abstrações em nível de sistema que permitem transformações de dados modulares, reutilizáveis e composáveis, e fornece uma API de construção de pipelines no estilo PyTorch para criar fluxos de dados depuráveis e otimizáveis. O framework consiste em quase 200 operadores reutilizáveis e seis pipelines de domínio geral, abrangendo texto, raciocínio matemático, código, Text-to-SQL, RAG agentivo e extração de conhecimento em larga escala. Para melhorar ainda mais a usabilidade, introduzimos o DataFlow-Agent, que traduz automaticamente especificações em linguagem natural em pipelines executáveis por meio de síntese de operadores, planejamento de pipeline e verificação iterativa. Em seis casos de uso representativos, o DataFlow melhora consistentemente o desempenho dos LLMs a jusante. Nossos pipelines de matemática, código e texto superam conjuntos de dados humanos curados e baselines sintéticas especializadas, alcançando até +3% de precisão de execução em Text-to-SQL em relação ao SynSQL, melhorias médias de +7% em benchmarks de código e ganhos de 1 a 3 pontos em MATH, GSM8K e AIME. Além disso, um conjunto de dados unificado de 10 mil amostras produzido pelo DataFlow permite que modelos base superem contrapartes treinadas em 1 milhão de dados do Infinity-Instruct. Esses resultados demonstram que o DataFlow fornece um substrato prático e de alto desempenho para uma preparação de dados para LLMs confiável, reproduzível e escalável, e estabelece uma base em nível de sistema para o futuro desenvolvimento de IA centrada em dados.
English
The rapidly growing demand for high-quality data in Large Language Models (LLMs) has intensified the need for scalable, reliable, and semantically rich data preparation pipelines. However, current practices remain dominated by ad-hoc scripts and loosely specified workflows, which lack principled abstractions, hinder reproducibility, and offer limited support for model-in-the-loop data generation. To address these challenges, we present DataFlow, a unified and extensible LLM-driven data preparation framework. DataFlow is designed with system-level abstractions that enable modular, reusable, and composable data transformations, and provides a PyTorch-style pipeline construction API for building debuggable and optimizable dataflows. The framework consists of nearly 200 reusable operators and six domain-general pipelines spanning text, mathematical reasoning, code, Text-to-SQL, agentic RAG, and large-scale knowledge extraction. To further improve usability, we introduce DataFlow-Agent, which automatically translates natural-language specifications into executable pipelines via operator synthesis, pipeline planning, and iterative verification. Across six representative use cases, DataFlow consistently improves downstream LLM performance. Our math, code, and text pipelines outperform curated human datasets and specialized synthetic baselines, achieving up to +3\% execution accuracy in Text-to-SQL over SynSQL, +7\% average improvements on code benchmarks, and 1--3 point gains on MATH, GSM8K, and AIME. Moreover, a unified 10K-sample dataset produced by DataFlow enables base models to surpass counterparts trained on 1M Infinity-Instruct data. These results demonstrate that DataFlow provides a practical and high-performance substrate for reliable, reproducible, and scalable LLM data preparation, and establishes a system-level foundation for future data-centric AI development.