ChatPaper.aiChatPaper

DataFlow: Een LLM-gestuurd Kader voor Uniforme Gegevensvoorbereiding en Workflowautomatisering in het Tijdperk van Data-Gedreven AI

DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI

December 18, 2025
Auteurs: Hao Liang, Xiaochen Ma, Zhou Liu, Zhen Hao Wong, Zhengyang Zhao, Zimo Meng, Runming He, Chengyu Shen, Qifeng Cai, Zhaoyang Han, Meiyi Qiang, Yalin Feng, Tianyi Bai, Zewei Pan, Ziyi Guo, Yizhen Jiang, Jingwen Deng, Qijie You, Peichao Lai, Tianyu Guo, Chi Hsu Tsai, Hengyi Feng, Rui Hu, Wenkai Yu, Junbo Niu, Bohan Zeng, Ruichuan An, Lu Ma, Jihao Huang, Yaowei Zheng, Conghui He, Linpeng Tang, Bin Cui, Weinan E, Wentao Zhang
cs.AI

Samenvatting

De snelgroeiende vraag naar hoogwaardige data voor Large Language Models (LLM's) heeft de behoefte aan schaalbare, betrouwbare en semantisch rijke datavoorbereidingspijplijnen geïntensiveerd. Huidige praktijken worden echter nog steeds gedomineerd door ad-hoc scripts en losjes gespecificeerde workflows, die gebrek hebben aan principiële abstracties, reproduceerbaarheid belemmeren en beperkte ondersteuning bieden voor model-in-the-loop data-generatie. Om deze uitdagingen aan te pakken, presenteren wij DataFlow, een uniform en uitbreidbaar LLM-gestuurd framework voor datavoorbereiding. DataFlow is ontworpen met systeemniveau-abstractions die modulaire, herbruikbare en samenstelbare datatransformaties mogelijk maken, en biedt een PyTorch-stijl pijplijnconstructie-API voor het bouwen van debugbare en optimaliseerbare dataflows. Het framework bestaat uit bijna 200 herbruikbare operatoren en zes domeingenerieke pijplijnen voor tekst, wiskundig redeneren, code, Text-to-SQL, agent-gebaseerde RAG en grootschalige kennisextractie. Om de bruikbaarheid verder te verbeteren, introduceren we DataFlow-Agent, dat natuurlijke-taalspecificaties automatisch vertaalt naar uitvoerbare pijplijnen via operator-synthese, pijplijnplanning en iteratieve verificatie. In zes representatieve use cases verbetert DataFlow consistent de prestaties van downstream LLM's. Onze wiskunde-, code- en tekstpijplijnen overtreffen door mensen samengestelde datasets en gespecialiseerde synthetische baselines, met een verbetering van tot +3% in uitvoeringsnauwkeurigheid voor Text-to-SQL ten opzichte van SynSQL, gemiddelde verbeteringen van +7% op code benchmarks, en winst van 1–3 punten op MATH, GSM8K en AIME. Bovendien stelt een uniforme 10K-sample dataset, gegenereerd door DataFlow, basismodellen in staat tegenhangers te overtreffen die zijn getraind op 1M Infinity-Instruct data. Deze resultaten tonen aan dat DataFlow een praktisch en hoogpresterend substraat biedt voor betrouwbare, reproduceerbare en schaalbare LLM-datavoorbereiding, en een systeemniveau-fundering legt voor toekomstige data-gerichte AI-ontwikkeling.
English
The rapidly growing demand for high-quality data in Large Language Models (LLMs) has intensified the need for scalable, reliable, and semantically rich data preparation pipelines. However, current practices remain dominated by ad-hoc scripts and loosely specified workflows, which lack principled abstractions, hinder reproducibility, and offer limited support for model-in-the-loop data generation. To address these challenges, we present DataFlow, a unified and extensible LLM-driven data preparation framework. DataFlow is designed with system-level abstractions that enable modular, reusable, and composable data transformations, and provides a PyTorch-style pipeline construction API for building debuggable and optimizable dataflows. The framework consists of nearly 200 reusable operators and six domain-general pipelines spanning text, mathematical reasoning, code, Text-to-SQL, agentic RAG, and large-scale knowledge extraction. To further improve usability, we introduce DataFlow-Agent, which automatically translates natural-language specifications into executable pipelines via operator synthesis, pipeline planning, and iterative verification. Across six representative use cases, DataFlow consistently improves downstream LLM performance. Our math, code, and text pipelines outperform curated human datasets and specialized synthetic baselines, achieving up to +3\% execution accuracy in Text-to-SQL over SynSQL, +7\% average improvements on code benchmarks, and 1--3 point gains on MATH, GSM8K, and AIME. Moreover, a unified 10K-sample dataset produced by DataFlow enables base models to surpass counterparts trained on 1M Infinity-Instruct data. These results demonstrate that DataFlow provides a practical and high-performance substrate for reliable, reproducible, and scalable LLM data preparation, and establishes a system-level foundation for future data-centric AI development.
PDF1584December 24, 2025