ChatPaper.aiChatPaper

DataFlow: LLM-управляемая платформа для унифицированной подготовки данных и автоматизации рабочих процессов в эпоху центрированной на данных ИИ

DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI

December 18, 2025
Авторы: Hao Liang, Xiaochen Ma, Zhou Liu, Zhen Hao Wong, Zhengyang Zhao, Zimo Meng, Runming He, Chengyu Shen, Qifeng Cai, Zhaoyang Han, Meiyi Qiang, Yalin Feng, Tianyi Bai, Zewei Pan, Ziyi Guo, Yizhen Jiang, Jingwen Deng, Qijie You, Peichao Lai, Tianyu Guo, Chi Hsu Tsai, Hengyi Feng, Rui Hu, Wenkai Yu, Junbo Niu, Bohan Zeng, Ruichuan An, Lu Ma, Jihao Huang, Yaowei Zheng, Conghui He, Linpeng Tang, Bin Cui, Weinan E, Wentao Zhang
cs.AI

Аннотация

Быстро растущий спрос на качественные данные для больших языковых моделей (LLM) обострил потребность в масштабируемых, надежных и семантически насыщенных конвейерах подготовки данных. Однако текущие подходы по-прежнему доминируют нестандартизированные скрипты и слабо специфицированные рабочие процессы, которые лишены принципиальных абстракций, затрудняют воспроизводимость и предлагают ограниченную поддержку генерации данных с участием модели в цикле. Для решения этих проблем мы представляем DataFlow — унифицированную и расширяемую платформу подготовки данных на основе LLM. DataFlow спроектирована с системными абстракциями, обеспечивающими модульные, повторно используемые и композируемые преобразования данных, и предоставляет API для построения конвейеров в стиле PyTorch, позволяющий создавать отлаживаемые и оптимизируемые потоки данных. Фреймворк включает около 200 повторно используемых операторов и шесть доменно-независимых конвейеров, охватывающих текстовые данные, математические рассуждения, код, Text-to-SQL, агентский RAG и крупномасштабное извлечение знаний. Для дальнейшего повышения удобства использования мы представляем DataFlow-Agent, который автоматически преобразует спецификации на естественном языке в исполняемые конвейеры посредством синтеза операторов, планирования пайплайнов и итерационной верификации. В шести репрезентативных сценариях использования DataFlow последовательно улучшает производительность нижестоящих LLM. Наши конвейеры для математики, кода и текста превосходят курируемые человеческие наборы данных и специализированные синтетические базовые линии, демонстрируя до +3% точности исполнения в Text-to-SQL по сравнению с SynSQL, +7% среднего улучшения на код-бенчмарках и прирост на 1–3 пункта на MATH, GSM8K и AIME. Более того, унифицированный набор данных из 10 тысяч примеров, созданный с помощью DataFlow, позволяет базовым моделям превзойти аналоги, обученные на 1 миллионе данных Infinity-Instruct. Эти результаты демонстрируют, что DataFlow предоставляет практичный и высокопроизводительный фундамент для надежной, воспроизводимой и масштабируемой подготовки данных для LLM и закладывает системную основу для будущего развития AI, ориентированного на данные.
English
The rapidly growing demand for high-quality data in Large Language Models (LLMs) has intensified the need for scalable, reliable, and semantically rich data preparation pipelines. However, current practices remain dominated by ad-hoc scripts and loosely specified workflows, which lack principled abstractions, hinder reproducibility, and offer limited support for model-in-the-loop data generation. To address these challenges, we present DataFlow, a unified and extensible LLM-driven data preparation framework. DataFlow is designed with system-level abstractions that enable modular, reusable, and composable data transformations, and provides a PyTorch-style pipeline construction API for building debuggable and optimizable dataflows. The framework consists of nearly 200 reusable operators and six domain-general pipelines spanning text, mathematical reasoning, code, Text-to-SQL, agentic RAG, and large-scale knowledge extraction. To further improve usability, we introduce DataFlow-Agent, which automatically translates natural-language specifications into executable pipelines via operator synthesis, pipeline planning, and iterative verification. Across six representative use cases, DataFlow consistently improves downstream LLM performance. Our math, code, and text pipelines outperform curated human datasets and specialized synthetic baselines, achieving up to +3\% execution accuracy in Text-to-SQL over SynSQL, +7\% average improvements on code benchmarks, and 1--3 point gains on MATH, GSM8K, and AIME. Moreover, a unified 10K-sample dataset produced by DataFlow enables base models to surpass counterparts trained on 1M Infinity-Instruct data. These results demonstrate that DataFlow provides a practical and high-performance substrate for reliable, reproducible, and scalable LLM data preparation, and establishes a system-level foundation for future data-centric AI development.
PDF1584December 24, 2025