DataFlow: 데이터 중심 AI 시대를 위한 통합 데이터 준비 및 워크플로우 자동화를 위한 LLM 기반 프레임워크
DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI
December 18, 2025
저자: Hao Liang, Xiaochen Ma, Zhou Liu, Zhen Hao Wong, Zhengyang Zhao, Zimo Meng, Runming He, Chengyu Shen, Qifeng Cai, Zhaoyang Han, Meiyi Qiang, Yalin Feng, Tianyi Bai, Zewei Pan, Ziyi Guo, Yizhen Jiang, Jingwen Deng, Qijie You, Peichao Lai, Tianyu Guo, Chi Hsu Tsai, Hengyi Feng, Rui Hu, Wenkai Yu, Junbo Niu, Bohan Zeng, Ruichuan An, Lu Ma, Jihao Huang, Yaowei Zheng, Conghui He, Linpeng Tang, Bin Cui, Weinan E, Wentao Zhang
cs.AI
초록
대규모 언어 모델(LLM)에서 고품질 데이터에 대한 급증하는 수요는 확장 가능하고 신뢰할 수 있으며 의미론적으로 풍부한 데이터 준비 파이프라인의 필요성을 더욱 긴급하게 만들었습니다. 그러나 현재의 관행은 임시 스크립트와 느슨하게 정의된 워크플로우가 주를 이루어, 원칙에 기반한 추상화가 부족하고 재현성을 저해하며 모델-인-더-루프 데이터 생성에 대한 지원이 제한적입니다. 이러한 문제를 해결하기 위해 우리는 통합적이고 확장 가능한 LLM 기반 데이터 준비 프레임워크인 DataFlow를 제시합니다. DataFlow는 모듈화되고 재사용 가능하며 구성 가능한 데이터 변환을 가능하게 하는 시스템 수준의 추상화로 설계되었으며, 디버깅 및 최적화가 가능한 데이터 흐름을 구축하기 위한 PyTorch 스타일의 파이프라인 구성 API를 제공합니다. 이 프레임워크는 약 200개의 재사용 가능한 연산자와 텍스트, 수학적 추론, 코드, Text-to-SQL, 에이전트 기반 RAG, 대규모 지식 추출 등 6가지 영역을 아우르는 범용 파이프라인으로 구성됩니다. 사용성을 더욱 개선하기 위해, 자연어 명세를 연산자 합성, 파이프라인 계획, 반복적 검증을 통해 실행 가능한 파이프라인으로 자동 변환하는 DataFlow-Agent를 도입했습니다. 6가지 대표적인 사용 사례에서 DataFlow는 하류 LLM 성능을 지속적으로 향상시켰습니다. 우리의 수학, 코드, 텍스트 파이프라인은 정제된 인간 데이터셋과 특화된 합성 기준선을 능가하며, Text-to-SQL에서 SynSQL 대비 최대 +3% 실행 정확도, 코드 벤치마크에서 평균 +7% 향상, MATH, GSM8K, AIME에서 1-3점 향상을 달성했습니다. 더 나아가, DataFlow로 생성된 통합 10K 샘플 데이터셋은 기초 모델이 1M개의 Infinity-Instruct 데이터로 훈련된 대조군을 능가하게 합니다. 이러한 결과는 DataFlow가 신뢰할 수 있고 재현 가능하며 확장 가능한 LLM 데이터 준비를 위한 실용적이고 고성능의 기반을 제공하며, 미래 데이터 중심 AI 개발을 위한 시스템 수준의 기초를 마련함을 입증합니다.
English
The rapidly growing demand for high-quality data in Large Language Models (LLMs) has intensified the need for scalable, reliable, and semantically rich data preparation pipelines. However, current practices remain dominated by ad-hoc scripts and loosely specified workflows, which lack principled abstractions, hinder reproducibility, and offer limited support for model-in-the-loop data generation. To address these challenges, we present DataFlow, a unified and extensible LLM-driven data preparation framework. DataFlow is designed with system-level abstractions that enable modular, reusable, and composable data transformations, and provides a PyTorch-style pipeline construction API for building debuggable and optimizable dataflows. The framework consists of nearly 200 reusable operators and six domain-general pipelines spanning text, mathematical reasoning, code, Text-to-SQL, agentic RAG, and large-scale knowledge extraction. To further improve usability, we introduce DataFlow-Agent, which automatically translates natural-language specifications into executable pipelines via operator synthesis, pipeline planning, and iterative verification. Across six representative use cases, DataFlow consistently improves downstream LLM performance. Our math, code, and text pipelines outperform curated human datasets and specialized synthetic baselines, achieving up to +3\% execution accuracy in Text-to-SQL over SynSQL, +7\% average improvements on code benchmarks, and 1--3 point gains on MATH, GSM8K, and AIME. Moreover, a unified 10K-sample dataset produced by DataFlow enables base models to surpass counterparts trained on 1M Infinity-Instruct data. These results demonstrate that DataFlow provides a practical and high-performance substrate for reliable, reproducible, and scalable LLM data preparation, and establishes a system-level foundation for future data-centric AI development.