ChatPaper.aiChatPaper

DataFlow: Un Marco de Trabajo Basado en LLM para la Preparación Unificada de Datos y la Automatización de Flujos de Trabajo en la Era de la IA Centrada en los Datos

DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI

December 18, 2025
Autores: Hao Liang, Xiaochen Ma, Zhou Liu, Zhen Hao Wong, Zhengyang Zhao, Zimo Meng, Runming He, Chengyu Shen, Qifeng Cai, Zhaoyang Han, Meiyi Qiang, Yalin Feng, Tianyi Bai, Zewei Pan, Ziyi Guo, Yizhen Jiang, Jingwen Deng, Qijie You, Peichao Lai, Tianyu Guo, Chi Hsu Tsai, Hengyi Feng, Rui Hu, Wenkai Yu, Junbo Niu, Bohan Zeng, Ruichuan An, Lu Ma, Jihao Huang, Yaowei Zheng, Conghui He, Linpeng Tang, Bin Cui, Weinan E, Wentao Zhang
cs.AI

Resumen

La creciente demanda de datos de alta calidad para los Modelos de Lenguaje a Gran Escala (LLMs) ha intensificado la necesidad de pipelines de preparación de datos escalables, confiables y semánticamente ricos. Sin embargo, las prácticas actuales siguen dominadas por scripts ad-hoc y flujos de trabajo especificados de manera vaga, que carecen de abstracciones fundamentadas, dificultan la reproducibilidad y ofrecen un soporte limitado para la generación de datos con el modelo en el ciclo. Para abordar estos desafíos, presentamos DataFlow, un framework unificado y extensible para la preparación de datos impulsada por LLMs. DataFlow está diseñado con abstracciones a nivel de sistema que permiten transformaciones de datos modulares, reutilizables y componibles, y proporciona una API de construcción de pipelines al estilo PyTorch para crear flujos de datos depurables y optimizables. El framework consta de casi 200 operadores reutilizables y seis pipelines de dominio general que abarcan texto, razonamiento matemático, código, Text-to-SQL, RAG agencial y extracción de conocimiento a gran escala. Para mejorar aún más la usabilidad, presentamos DataFlow-Agent, que traduce automáticamente especificaciones en lenguaje natural a pipelines ejecutables mediante síntesis de operadores, planificación de pipelines y verificación iterativa. En seis casos de uso representativos, DataFlow mejora consistentemente el rendimiento de los LLMs posteriores. Nuestros pipelines de matemáticas, código y texto superan a conjuntos de datos humanos curados y a líneas base sintéticas especializadas, logrando hasta un +3% de precisión de ejecución en Text-to-SQL sobre SynSQL, mejoras promedio de +7% en benchmarks de código y ganancias de 1 a 3 puntos en MATH, GSM8K y AIME. Además, un conjunto de datos unificado de 10K muestras producido por DataFlow permite que los modelos base superen a sus contrapartes entrenadas con 1M de datos Infinity-Instruct. Estos resultados demuestran que DataFlow proporciona un sustrato práctico y de alto rendimiento para una preparación de datos para LLMs confiable, reproducible y escalable, y establece una base a nivel de sistema para el futuro desarrollo de la IA centrada en datos.
English
The rapidly growing demand for high-quality data in Large Language Models (LLMs) has intensified the need for scalable, reliable, and semantically rich data preparation pipelines. However, current practices remain dominated by ad-hoc scripts and loosely specified workflows, which lack principled abstractions, hinder reproducibility, and offer limited support for model-in-the-loop data generation. To address these challenges, we present DataFlow, a unified and extensible LLM-driven data preparation framework. DataFlow is designed with system-level abstractions that enable modular, reusable, and composable data transformations, and provides a PyTorch-style pipeline construction API for building debuggable and optimizable dataflows. The framework consists of nearly 200 reusable operators and six domain-general pipelines spanning text, mathematical reasoning, code, Text-to-SQL, agentic RAG, and large-scale knowledge extraction. To further improve usability, we introduce DataFlow-Agent, which automatically translates natural-language specifications into executable pipelines via operator synthesis, pipeline planning, and iterative verification. Across six representative use cases, DataFlow consistently improves downstream LLM performance. Our math, code, and text pipelines outperform curated human datasets and specialized synthetic baselines, achieving up to +3\% execution accuracy in Text-to-SQL over SynSQL, +7\% average improvements on code benchmarks, and 1--3 point gains on MATH, GSM8K, and AIME. Moreover, a unified 10K-sample dataset produced by DataFlow enables base models to surpass counterparts trained on 1M Infinity-Instruct data. These results demonstrate that DataFlow provides a practical and high-performance substrate for reliable, reproducible, and scalable LLM data preparation, and establishes a system-level foundation for future data-centric AI development.
PDF1584December 24, 2025