ChatPaper.aiChatPaper

DataFlow: Un Framework Basato su LLM per la Preparazione Unificata dei Dati e l'Automazione dei Flussi di Lavoro nell'Era dell'IA Centrata sui Dati

DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI

December 18, 2025
Autori: Hao Liang, Xiaochen Ma, Zhou Liu, Zhen Hao Wong, Zhengyang Zhao, Zimo Meng, Runming He, Chengyu Shen, Qifeng Cai, Zhaoyang Han, Meiyi Qiang, Yalin Feng, Tianyi Bai, Zewei Pan, Ziyi Guo, Yizhen Jiang, Jingwen Deng, Qijie You, Peichao Lai, Tianyu Guo, Chi Hsu Tsai, Hengyi Feng, Rui Hu, Wenkai Yu, Junbo Niu, Bohan Zeng, Ruichuan An, Lu Ma, Jihao Huang, Yaowei Zheng, Conghui He, Linpeng Tang, Bin Cui, Weinan E, Wentao Zhang
cs.AI

Abstract

La crescente domanda di dati di alta qualità per i Large Language Model (LLM) ha intensificato la necessità di pipeline di preparazione dei dati scalabili, affidabili e semanticamente ricche. Tuttavia, le pratiche attuali sono ancora dominate da script ad-hoc e flussi di lavoro scarsamente specificati, che mancano di astrazioni principiate, ostacolano la riproducibilità e offrono un supporto limitato per la generazione di dati con modello-in-the-loop. Per affrontare queste sfide, presentiamo DataFlow, un framework unificato ed estendibile per la preparazione dei dati guidata da LLM. DataFlow è progettato con astrazioni a livello di sistema che abilitano trasformazioni dei dati modulari, riutilizzabili e componibili, e fornisce un'API per la costruzione di pipeline in stile PyTorch per realizzare dataflow debuggabili e ottimizzabili. Il framework è composto da quasi 200 operatori riutilizzabili e sei pipeline generali di dominio che coprono testo, ragionamento matematico, codice, Text-to-SQL, RAG agenziale ed estrazione di conoscenza su larga scala. Per migliorare ulteriormente l'usabilità, introduciamo DataFlow-Agent, che traduce automaticamente specifiche in linguaggio naturale in pipeline eseguibili attraverso sintesi di operatori, pianificazione della pipeline e verifica iterativa. In sei casi d'uso rappresentativi, DataFlow migliora costantemente le prestazioni degli LLM a valle. Le nostre pipeline per matematica, codice e testo superano dataset umani curati e baseline sintetici specializzati, raggiungendo fino a un +3% di accuratezza di esecuzione in Text-to-SQL rispetto a SynSQL, miglioramenti medi del +7% su benchmark di codice e guadagni di 1-3 punti su MATH, GSM8K e AIME. Inoltre, un dataset unificato di 10.000 campioni prodotto da DataFlow consente ai modelli base di superare le controparti addestrate su 1 milione di dati Infinity-Instruct. Questi risultati dimostrano che DataFlow fornisce un substrato pratico e ad alte prestazioni per una preparazione dei dati per LLM affidabile, riproducibile e scalabile, e stabilisce una fondazione a livello di sistema per il futuro sviluppo dell'AI data-centrica.
English
The rapidly growing demand for high-quality data in Large Language Models (LLMs) has intensified the need for scalable, reliable, and semantically rich data preparation pipelines. However, current practices remain dominated by ad-hoc scripts and loosely specified workflows, which lack principled abstractions, hinder reproducibility, and offer limited support for model-in-the-loop data generation. To address these challenges, we present DataFlow, a unified and extensible LLM-driven data preparation framework. DataFlow is designed with system-level abstractions that enable modular, reusable, and composable data transformations, and provides a PyTorch-style pipeline construction API for building debuggable and optimizable dataflows. The framework consists of nearly 200 reusable operators and six domain-general pipelines spanning text, mathematical reasoning, code, Text-to-SQL, agentic RAG, and large-scale knowledge extraction. To further improve usability, we introduce DataFlow-Agent, which automatically translates natural-language specifications into executable pipelines via operator synthesis, pipeline planning, and iterative verification. Across six representative use cases, DataFlow consistently improves downstream LLM performance. Our math, code, and text pipelines outperform curated human datasets and specialized synthetic baselines, achieving up to +3\% execution accuracy in Text-to-SQL over SynSQL, +7\% average improvements on code benchmarks, and 1--3 point gains on MATH, GSM8K, and AIME. Moreover, a unified 10K-sample dataset produced by DataFlow enables base models to surpass counterparts trained on 1M Infinity-Instruct data. These results demonstrate that DataFlow provides a practical and high-performance substrate for reliable, reproducible, and scalable LLM data preparation, and establishes a system-level foundation for future data-centric AI development.
PDF1584December 24, 2025