DataFlex: Een Uniform Raamwerk voor Data-Gecentreerde Dynamische Training van Grote Taalmodellen

Samenvatting

Data-centrisch traineren is naar voren gekomen als een veelbelovende richting voor het verbeteren van grote taalmmodellen (LLM's) door niet alleen modelparameters te optimaliseren, maar ook de selectie, samenstelling en weging van trainingsgegevens tijdens het optimalisatieproces. Bestaande benaderingen voor gegevensselectie, optimalisatie van gegevensmengsels en herweging van gegevens worden echter vaak ontwikkeld in geïsoleerde codebibliotheken met inconsistente interfaces, wat reproduceerbaarheid, eerlijke vergelijking en praktische integratie belemmert. In dit artikel presenteren we DataFlex, een uniform data-centrisch dynamisch trainingsframework gebouwd op LLaMA-Factory. DataFlex ondersteunt drie belangrijke paradigma's van dynamische gegevensoptimalisatie: voorbeeldselectie, aanpassing van domeinmengsels en herweging van voorbeelden, terwijl het volledig compatibel blijft met de oorspronkelijke trainingsworkflow. Het biedt uitbreidbare trainerabstracties en modulaire componenten, waardoor het een directe vervanging vormt voor standaard LLM-training, en het verenigt cruciale modelafhankelijke operaties zoals embedding-extractie, inferentie en gradientberekening, met ondersteuning voor grootschalige settings inclusief DeepSpeed ZeRO-3. We voeren uitgebreide experimenten uit met meerdere data-centrische methoden. Dynamische gegevensselectie presteert consistent beter dan statische training met volledige gegevens op MMLU voor zowel Mistral-7B als Llama-3.2-3B. Voor gegevensmengsels verbeteren DoReMi en ODM zowel de MMLU-nauwkeurigheid als de perplexiteit op corpusniveau ten opzichte van standaardverhoudingen bij het vooraf trainen van Qwen2.5-1.5B op SlimPajama op schalen van 6B en 30B tokens. DataFlex behaalt ook consistente verbeteringen in looptijd ten opzichte van originele implementaties. Deze resultaten tonen aan dat DataFlex een effectieve, efficiënte en reproduceerbare infrastructuur biedt voor data-centrische dynamische training van LLM's.

English

Data-centric training has emerged as a promising direction for improving large language models (LLMs) by optimizing not only model parameters but also the selection, composition, and weighting of training data during optimization. However, existing approaches to data selection, data mixture optimization, and data reweighting are often developed in isolated codebases with inconsistent interfaces, hindering reproducibility, fair comparison, and practical integration. In this paper, we present DataFlex, a unified data-centric dynamic training framework built upon LLaMA-Factory. DataFlex supports three major paradigms of dynamic data optimization: sample selection, domain mixture adjustment, and sample reweighting, while remaining fully compatible with the original training workflow. It provides extensible trainer abstractions and modular components, enabling a drop-in replacement for standard LLM training, and unifies key model-dependent operations such as embedding extraction, inference, and gradient computation, with support for large-scale settings including DeepSpeed ZeRO-3. We conduct comprehensive experiments across multiple data-centric methods. Dynamic data selection consistently outperforms static full-data training on MMLU across both Mistral-7B and Llama-3.2-3B. For data mixture, DoReMi and ODM improve both MMLU accuracy and corpus-level perplexity over default proportions when pretraining Qwen2.5-1.5B on SlimPajama at 6B and 30B token scales. DataFlex also achieves consistent runtime improvements over original implementations. These results demonstrate that DataFlex provides an effective, efficient, and reproducible infrastructure for data-centric dynamic training of LLMs.

DataFlex: Een Uniform Raamwerk voor Data-Gecentreerde Dynamische Training van Grote Taalmodellen

DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models

Samenvatting

Support