DataFlow : un cadre piloté par LLM pour la préparation unifiée des données et l'automatisation des flux de travail à l'ère de l'IA axée sur les données
DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI
December 18, 2025
papers.authors: Hao Liang, Xiaochen Ma, Zhou Liu, Zhen Hao Wong, Zhengyang Zhao, Zimo Meng, Runming He, Chengyu Shen, Qifeng Cai, Zhaoyang Han, Meiyi Qiang, Yalin Feng, Tianyi Bai, Zewei Pan, Ziyi Guo, Yizhen Jiang, Jingwen Deng, Qijie You, Peichao Lai, Tianyu Guo, Chi Hsu Tsai, Hengyi Feng, Rui Hu, Wenkai Yu, Junbo Niu, Bohan Zeng, Ruichuan An, Lu Ma, Jihao Huang, Yaowei Zheng, Conghui He, Linpeng Tang, Bin Cui, Weinan E, Wentao Zhang
cs.AI
papers.abstract
La demande croissante de données de haute qualité pour les grands modèles de langage (LLM) a intensifié le besoin de pipelines de préparation des données évolutifs, fiables et sémantiquement riches. Cependant, les pratiques actuelles restent dominées par des scripts ad hoc et des workflows faiblement spécifiés, qui manquent d'abstractions principiées, entravent la reproductibilité et offrent un support limité pour la génération de données avec un modèle en boucle. Pour relever ces défis, nous présentons DataFlow, un framework unifié et extensible de préparation de données piloté par LLM. DataFlow est conçu avec des abstractions au niveau système qui permettent des transformations de données modulaires, réutilisables et composables, et fournit une API de construction de pipelines de style PyTorch pour créer des flux de données déboguables et optimisables. Le framework comprend près de 200 opérateurs réutilisables et six pipelines génériques couvrant le texte, le raisonnement mathématique, le code, le Text-to-SQL, le RAG agentique et l'extraction de connaissances à grande échelle. Pour améliorer davantage la facilité d'utilisation, nous introduisons DataFlow-Agent, qui traduit automatiquement des spécifications en langage naturel en pipelines exécutables via la synthèse d'opérateurs, la planification de pipelines et la vérification itérative. Sur six cas d'usage représentatifs, DataFlow améliore systématiquement les performances des LLM en aval. Nos pipelines pour les mathématiques, le code et le texte surpassent les ensembles de données humaines curatés et les bases synthétiques spécialisées, atteignant jusqu'à +3 % de précision d'exécution en Text-to-SQL par rapport à SynSQL, des améliorations moyennes de +7 % sur les benchmarks de code, et des gains de 1 à 3 points sur MATH, GSM8K et AIME. De plus, un ensemble de données unifié de 10 000 échantillons produit par DataFlow permet à des modèles de base de surpasser leurs homologues entraînés sur 1 million de données Infinity-Instruct. Ces résultats démontrent que DataFlow fournit un substrat pratique et performant pour une préparation de données LLM fiable, reproductible et évolutive, et établit une fondation au niveau système pour le futur développement de l'IA axée sur les données.
English
The rapidly growing demand for high-quality data in Large Language Models (LLMs) has intensified the need for scalable, reliable, and semantically rich data preparation pipelines. However, current practices remain dominated by ad-hoc scripts and loosely specified workflows, which lack principled abstractions, hinder reproducibility, and offer limited support for model-in-the-loop data generation. To address these challenges, we present DataFlow, a unified and extensible LLM-driven data preparation framework. DataFlow is designed with system-level abstractions that enable modular, reusable, and composable data transformations, and provides a PyTorch-style pipeline construction API for building debuggable and optimizable dataflows. The framework consists of nearly 200 reusable operators and six domain-general pipelines spanning text, mathematical reasoning, code, Text-to-SQL, agentic RAG, and large-scale knowledge extraction. To further improve usability, we introduce DataFlow-Agent, which automatically translates natural-language specifications into executable pipelines via operator synthesis, pipeline planning, and iterative verification. Across six representative use cases, DataFlow consistently improves downstream LLM performance. Our math, code, and text pipelines outperform curated human datasets and specialized synthetic baselines, achieving up to +3\% execution accuracy in Text-to-SQL over SynSQL, +7\% average improvements on code benchmarks, and 1--3 point gains on MATH, GSM8K, and AIME. Moreover, a unified 10K-sample dataset produced by DataFlow enables base models to surpass counterparts trained on 1M Infinity-Instruct data. These results demonstrate that DataFlow provides a practical and high-performance substrate for reliable, reproducible, and scalable LLM data preparation, and establishes a system-level foundation for future data-centric AI development.