DataFlow: Ein LLM-gesteuertes Framework für vereinheitlichte Datenaufbereitung und Workflow-Automatisierung im Zeitalter der datenzentrierten KI

papers.abstract

Der rasch wachsende Bedarf an hochwertigen Daten für große Sprachmodelle (LLMs) hat den Bedarf an skalierbaren, zuverlässigen und semantisch reichhaltigen Datenaufbereitungspipelines verstärkt. Allerdings werden aktuelle Praktiken nach wie vor von Ad-hoc-Skripten und lose spezifizierten Workflows dominiert, denen prinzipielle Abstraktionen fehlen, die Reproduzierbarkeit behindern und nur begrenzte Unterstützung für modellgestützte Datengenerierung bieten. Um diese Herausforderungen zu bewältigen, stellen wir DataFlow vor, ein einheitliches und erweiterbares LLM-gestütztes Framework zur Datenaufbereitung. DataFlow wurde mit Systemabstraktionen entworfen, die modulare, wiederverwendbare und kombinierbare Datentransformationen ermöglichen, und bietet eine Pipeline-Erstellungs-API im PyTorch-Stil zum Aufbau debug- und optimierbarer Dataflows. Das Framework besteht aus fast 200 wiederverwendbaren Operatoren und sechs domänenübergreifenden Pipelines, die die Bereiche Text, mathematisches Schließen, Code, Text-to-SQL, agentenbasierte RAG-Systeme und groß angelegte Wissensextraktion abdecken. Um die Benutzerfreundlichkeit weiter zu verbessern, führen wir DataFlow-Agent ein, das natürliche Sprachspezifikationen automatisch über Operatorsynthese, Pipeline-Planung und iterative Verifikation in ausführbare Pipelines übersetzt. In sechs repräsentativen Anwendungsfällen verbessert DataFlow durchgängig die Leistung nachgelagerter LLMs. Unsere Mathematik-, Code- und Text-Pipelines übertreffen kuratierte menschliche Datensätze und spezialisierte synthetische Baselines, mit bis zu +3 % höherer Ausführungsgenauigkeit in Text-to-SQL gegenüber SynSQL, durchschnittlich +7 % Verbesserung auf Code-Benchmarks und Steigerungen von 1–3 Punkten auf MATH, GSM8K und AIME. Darüber hinaus ermöglicht ein von DataFlow erzeugter, einheitlicher 10K-Beispiel-Datensatz, dass Basismodelle Gegenstücke übertreffen, die mit 1M Infinity-Instruct-Daten trainiert wurden. Diese Ergebnisse demonstrieren, dass DataFlow eine praktische und leistungsstarke Grundlage für zuverlässige, reproduzierbare und skalierbare LLM-Datenaufbereitung bietet und eine Systemgrundlage für die zukünftige datenzentrierte KI-Entwicklung schafft.

English

The rapidly growing demand for high-quality data in Large Language Models (LLMs) has intensified the need for scalable, reliable, and semantically rich data preparation pipelines. However, current practices remain dominated by ad-hoc scripts and loosely specified workflows, which lack principled abstractions, hinder reproducibility, and offer limited support for model-in-the-loop data generation. To address these challenges, we present DataFlow, a unified and extensible LLM-driven data preparation framework. DataFlow is designed with system-level abstractions that enable modular, reusable, and composable data transformations, and provides a PyTorch-style pipeline construction API for building debuggable and optimizable dataflows. The framework consists of nearly 200 reusable operators and six domain-general pipelines spanning text, mathematical reasoning, code, Text-to-SQL, agentic RAG, and large-scale knowledge extraction. To further improve usability, we introduce DataFlow-Agent, which automatically translates natural-language specifications into executable pipelines via operator synthesis, pipeline planning, and iterative verification. Across six representative use cases, DataFlow consistently improves downstream LLM performance. Our math, code, and text pipelines outperform curated human datasets and specialized synthetic baselines, achieving up to +3\% execution accuracy in Text-to-SQL over SynSQL, +7\% average improvements on code benchmarks, and 1--3 point gains on MATH, GSM8K, and AIME. Moreover, a unified 10K-sample dataset produced by DataFlow enables base models to surpass counterparts trained on 1M Infinity-Instruct data. These results demonstrate that DataFlow provides a practical and high-performance substrate for reliable, reproducible, and scalable LLM data preparation, and establishes a system-level foundation for future data-centric AI development.

DataFlow: Ein LLM-gesteuertes Framework für vereinheitlichte Datenaufbereitung und Workflow-Automatisierung im Zeitalter der datenzentrierten KI

DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI

papers.abstract

Support