DataFlow: データ中心AI時代における統合データ準備とワークフロー自動化のためのLLM駆動フレームワーク
DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI
December 18, 2025
著者: Hao Liang, Xiaochen Ma, Zhou Liu, Zhen Hao Wong, Zhengyang Zhao, Zimo Meng, Runming He, Chengyu Shen, Qifeng Cai, Zhaoyang Han, Meiyi Qiang, Yalin Feng, Tianyi Bai, Zewei Pan, Ziyi Guo, Yizhen Jiang, Jingwen Deng, Qijie You, Peichao Lai, Tianyu Guo, Chi Hsu Tsai, Hengyi Feng, Rui Hu, Wenkai Yu, Junbo Niu, Bohan Zeng, Ruichuan An, Lu Ma, Jihao Huang, Yaowei Zheng, Conghui He, Linpeng Tang, Bin Cui, Weinan E, Wentao Zhang
cs.AI
要旨
大規模言語モデル(LLM)における高品質データへの需要が急速に拡大する中、スケーラブルで信頼性が高く、意味的に豊富なデータ準備パイプラインの必要性が高まっている。しかし、現在の実践は依然としてアドホックなスクリプトと緩やかに定義されたワークフローが主流であり、体系化された抽象化が欠如し、再現性を妨げ、モデルインザループによるデータ生成へのサポートが限定的である。これらの課題に対処するため、我々は統一された拡張可能なLLM駆動データ準備フレームワーク「DataFlow」を提案する。DataFlowは、モジュール化され再利用可能で合成可能なデータ変換を実現するシステムレベルの抽象化を設計思想としており、デバッグ可能かつ最適化可能なデータフローを構築するためのPyTorchスタイルのパイプライン構築APIを提供する。本フレームワークは約200の再利用可能な演算子と、テキスト、数学的推論、コード、Text-to-SQL、エージェント型RAG、大規模知識抽出の6つの汎用ドメインに跨るパイプラインで構成される。さらに使いやすさを向上させるため、自然言語仕様を演算子合成、パイプライン計画、反復的検証によって実行可能なパイプラインに自動変換するDataFlow-Agentを導入する。6つの代表的なユースケースにおいて、DataFlowは一貫して下流のLLM性能を向上させた。数学、コード、テキストの各パイプラインは、人手で整備されたデータセットや専門的な合成ベースラインを上回り、Text-to-SQLではSynSQL比で最大3%の実行精度向上、コードベンチマークでは平均7%の改善、MATH/GSM8K/AIMEでは1~3ポイントの向上を達成した。さらに、DataFlowが生成した1万サンプルの統一データセットにより、ベースモデルは100万サンプルのInfinity-Instructデータで学習したモデルを凌駕した。これらの結果は、DataFlowが信頼性・再現性・拡張性を備えたLLMデータ準備の実用的かつ高性能な基盤を提供し、データ中心のAI開発のためのシステムレベル基盤を確立することを示している。
English
The rapidly growing demand for high-quality data in Large Language Models (LLMs) has intensified the need for scalable, reliable, and semantically rich data preparation pipelines. However, current practices remain dominated by ad-hoc scripts and loosely specified workflows, which lack principled abstractions, hinder reproducibility, and offer limited support for model-in-the-loop data generation. To address these challenges, we present DataFlow, a unified and extensible LLM-driven data preparation framework. DataFlow is designed with system-level abstractions that enable modular, reusable, and composable data transformations, and provides a PyTorch-style pipeline construction API for building debuggable and optimizable dataflows. The framework consists of nearly 200 reusable operators and six domain-general pipelines spanning text, mathematical reasoning, code, Text-to-SQL, agentic RAG, and large-scale knowledge extraction. To further improve usability, we introduce DataFlow-Agent, which automatically translates natural-language specifications into executable pipelines via operator synthesis, pipeline planning, and iterative verification. Across six representative use cases, DataFlow consistently improves downstream LLM performance. Our math, code, and text pipelines outperform curated human datasets and specialized synthetic baselines, achieving up to +3\% execution accuracy in Text-to-SQL over SynSQL, +7\% average improvements on code benchmarks, and 1--3 point gains on MATH, GSM8K, and AIME. Moreover, a unified 10K-sample dataset produced by DataFlow enables base models to surpass counterparts trained on 1M Infinity-Instruct data. These results demonstrate that DataFlow provides a practical and high-performance substrate for reliable, reproducible, and scalable LLM data preparation, and establishes a system-level foundation for future data-centric AI development.