DataFlex : un cadre unifié pour l'entraînement dynamique centré sur les données des grands modèles de langage
DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models
March 27, 2026
Auteurs: Hao Liang, Zhengyang Zhao, Meiyi Qiang, Mingrui Chen, Lu Ma, Rongyi Yu, Hengyi Feng, Shixuan Sun, Zimo Meng, Xiaochen Ma, Xuanlin Yang, Qifeng Cai, Ruichuan An, Bohan Zeng, Zhen Hao Wong, Chengyu Shen, Runming He, Zhaoyang Han, Yaowei Zheng, Fangcheng Fu, Conghui He, Bin Cui, Zhiyu Li, Weinan E, Wentao Zhang
cs.AI
Résumé
L'entraînement axé sur les données est apparu comme une direction prometteuse pour améliorer les grands modèles de langage (LLM) en optimisant non seulement les paramètres du modèle, mais aussi la sélection, la composition et la pondération des données d'entraînement durant l'optimisation. Cependant, les approches existantes pour la sélection des données, l'optimisation des mélanges de données et la repondération des données sont souvent développées dans des bases de code isolées avec des interfaces incohérentes, entravant la reproductibilité, la comparaison équitable et l'intégration pratique. Dans cet article, nous présentons DataFlex, un cadre unifié et dynamique d'entraînement axé sur les données, construit sur LLaMA-Factory. DataFlex prend en charge trois paradigmes majeurs d'optimisation dynamique des données : la sélection d'échantillons, l'ajustement du mélange de domaines et la repondération des échantillons, tout en restant entièrement compatible avec le flux de travail d'entraînement original. Il fournit des abstractions de formateur extensibles et des composants modulaires, permettant un remplacement direct de l'entraînement standard des LLM, et unifie les opérations clés dépendantes du modèle telles que l'extraction d'incorporations, l'inférence et le calcul du gradient, avec une prise en charge des configurations à grande échelle incluant DeepSpeed ZeRO-3. Nous menons des expériences complètes sur plusieurs méthodes centrées sur les données. La sélection dynamique des données surpasse systématiquement l'entraînement statique sur l'intégralité des données sur MMLU, aussi bien avec Mistral-7B qu'avec Llama-3.2-3B. Pour le mélange de données, DoReMi et ODM améliorent à la fois la précision MMLU et la perplexité au niveau du corpus par rapport aux proportions par défaut lors du pré-entraînement de Qwen2.5-1.5B sur SlimPajama à des échelles de 6 et 30 milliards de tokens. DataFlex obtient également des améliorations constantes du temps d'exécution par rapport aux implémentations originales. Ces résultats démontrent que DataFlex fournit une infrastructure efficace, efficiente et reproductible pour l'entraînement dynamique des LLM axé sur les données.
English
Data-centric training has emerged as a promising direction for improving large language models (LLMs) by optimizing not only model parameters but also the selection, composition, and weighting of training data during optimization. However, existing approaches to data selection, data mixture optimization, and data reweighting are often developed in isolated codebases with inconsistent interfaces, hindering reproducibility, fair comparison, and practical integration. In this paper, we present DataFlex, a unified data-centric dynamic training framework built upon LLaMA-Factory. DataFlex supports three major paradigms of dynamic data optimization: sample selection, domain mixture adjustment, and sample reweighting, while remaining fully compatible with the original training workflow. It provides extensible trainer abstractions and modular components, enabling a drop-in replacement for standard LLM training, and unifies key model-dependent operations such as embedding extraction, inference, and gradient computation, with support for large-scale settings including DeepSpeed ZeRO-3. We conduct comprehensive experiments across multiple data-centric methods. Dynamic data selection consistently outperforms static full-data training on MMLU across both Mistral-7B and Llama-3.2-3B. For data mixture, DoReMi and ODM improve both MMLU accuracy and corpus-level perplexity over default proportions when pretraining Qwen2.5-1.5B on SlimPajama at 6B and 30B token scales. DataFlex also achieves consistent runtime improvements over original implementations. These results demonstrate that DataFlex provides an effective, efficient, and reproducible infrastructure for data-centric dynamic training of LLMs.