DataFlex: Ein einheitliches Framework für datenzentriertes dynamisches Training großer Sprachmodelle

Zusammenfassung

Datenzentriertes Training hat sich als vielversprechender Ansatz zur Verbesserung großer Sprachmodelle (LLMs) etabliert, indem nicht nur Modellparameter, sondern auch die Auswahl, Zusammensetzung und Gewichtung der Trainingsdaten während der Optimierung verfeinert werden. Bestehende Ansätze zur Datenauswahl, Datenmischungsoptimierung und Datenneugewichtung werden jedoch häufig in isolierten Codebasen mit inkonsistenten Schnittstellen entwickelt, was Reproduzierbarkeit, faire Vergleiche und praktische Integration behindert. In diesem Beitrag stellen wir DataFlex vor, einen einheitlichen, datenzentrierten dynamischen Trainingsframework, der auf LLaMA-Factory aufbaut. DataFlex unterstützt drei Hauptparadigmen der dynamischen Datenoptimierung: Stichprobenauswahl, Domänenmischungsanpassung und Stichprobengewichtung, bleibt dabei jedoch vollständig kompatibel mit dem ursprünglichen Trainingsablauf. Es bietet erweiterbare Trainer-Abstraktionen und modulare Komponenten, die einen direkten Ersatz für Standard-LLM-Training ermöglichen, und vereinheitlicht wichtige modellabhängige Operationen wie Embedding-Extraktion, Inferenz und Gradientenberechnung, mit Unterstützung für umfangreiche Einstellungen inklusive DeepSpeed ZeRO-3. Wir führen umfassende Experimente mit mehreren datenzentrierten Methoden durch. Dynamische Datenauswahl übertrifft durchgängig statisches Training mit vollständigen Daten auf MMLU für sowohl Mistral-7B als auch Llama-3.2-3B. Für Datenmischungen verbessern DoReMi und ODM sowohl die MMLU-Genauigkeit als auch die perplexität auf Korpusebene gegenüber Standardproportionen, wenn Qwen2.5-1.5B auf SlimPajama mit 6B und 30B Token vortrainiert wird. DataFlex erzielt zudem konsistente Laufzeitverbesserungen gegenüber Originalimplementierungen. Diese Ergebnisse demonstrieren, dass DataFlex eine effektive, effiziente und reproduzierbare Infrastruktur für datenzentriertes dynamisches Training von LLMs bereitstellt.

English

Data-centric training has emerged as a promising direction for improving large language models (LLMs) by optimizing not only model parameters but also the selection, composition, and weighting of training data during optimization. However, existing approaches to data selection, data mixture optimization, and data reweighting are often developed in isolated codebases with inconsistent interfaces, hindering reproducibility, fair comparison, and practical integration. In this paper, we present DataFlex, a unified data-centric dynamic training framework built upon LLaMA-Factory. DataFlex supports three major paradigms of dynamic data optimization: sample selection, domain mixture adjustment, and sample reweighting, while remaining fully compatible with the original training workflow. It provides extensible trainer abstractions and modular components, enabling a drop-in replacement for standard LLM training, and unifies key model-dependent operations such as embedding extraction, inference, and gradient computation, with support for large-scale settings including DeepSpeed ZeRO-3. We conduct comprehensive experiments across multiple data-centric methods. Dynamic data selection consistently outperforms static full-data training on MMLU across both Mistral-7B and Llama-3.2-3B. For data mixture, DoReMi and ODM improve both MMLU accuracy and corpus-level perplexity over default proportions when pretraining Qwen2.5-1.5B on SlimPajama at 6B and 30B token scales. DataFlex also achieves consistent runtime improvements over original implementations. These results demonstrate that DataFlex provides an effective, efficient, and reproducible infrastructure for data-centric dynamic training of LLMs.

DataFlex: Ein einheitliches Framework für datenzentriertes dynamisches Training großer Sprachmodelle

DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models

Zusammenfassung

Support