DataFlex: Um Framework Unificado para o Treinamento Dinâmico Centrado em Dados de Modelos de Linguagem de Grande Porte

Resumo

O treinamento centrado em dados emergiu como uma direção promissora para melhorar os grandes modelos de linguagem (LLMs), otimizando não apenas os parâmetros do modelo, mas também a seleção, composição e ponderação dos dados de treinamento durante a otimização. No entanto, as abordagens existentes para seleção de dados, otimização de mistura de dados e reponderação de dados são frequentemente desenvolvidas em bases de código isoladas com interfaces inconsistentes, dificultando a reprodutibilidade, a comparação justa e a integração prática. Neste artigo, apresentamos o DataFlex, um framework unificado e dinâmico de treinamento centrado em dados construído sobre o LLaMA-Factory. O DataFlex suporta três paradigmas principais de otimização dinâmica de dados: seleção de amostras, ajuste de mistura de domínios e reponderação de amostras, mantendo-se totalmente compatível com o fluxo de trabalho de treinamento original. Ele fornece abstrações de treinador extensíveis e componentes modulares, permitindo uma substituição direta do treinamento padrão de LLMs, e unifica operações-chave dependentes do modelo, como extração de embeddings, inferência e cálculo de gradiente, com suporte para configurações de larga escala, incluindo DeepSpeed ZeRO-3. Realizamos experimentos abrangentes com vários métodos centrados em dados. A seleção dinâmica de dados supera consistentemente o treinamento estático com dados completos no MMLU, tanto para o Mistral-7B quanto para o Llama-3.2-3B. Para a mistura de dados, DoReMi e ODM melhoram a precisão no MMLU e a perplexidade a nível de corpus sobre as proporções padrão ao pré-treinar o Qwen2.5-1.5B no SlimPajama nas escalas de 6B e 30B de tokens. O DataFlex também alcança melhorias consistentes no tempo de execução em relação às implementações originais. Estes resultados demonstram que o DataFlex fornece uma infraestrutura eficaz, eficiente e reprodutível para o treinamento dinâmico centrado em dados de LLMs.

English

Data-centric training has emerged as a promising direction for improving large language models (LLMs) by optimizing not only model parameters but also the selection, composition, and weighting of training data during optimization. However, existing approaches to data selection, data mixture optimization, and data reweighting are often developed in isolated codebases with inconsistent interfaces, hindering reproducibility, fair comparison, and practical integration. In this paper, we present DataFlex, a unified data-centric dynamic training framework built upon LLaMA-Factory. DataFlex supports three major paradigms of dynamic data optimization: sample selection, domain mixture adjustment, and sample reweighting, while remaining fully compatible with the original training workflow. It provides extensible trainer abstractions and modular components, enabling a drop-in replacement for standard LLM training, and unifies key model-dependent operations such as embedding extraction, inference, and gradient computation, with support for large-scale settings including DeepSpeed ZeRO-3. We conduct comprehensive experiments across multiple data-centric methods. Dynamic data selection consistently outperforms static full-data training on MMLU across both Mistral-7B and Llama-3.2-3B. For data mixture, DoReMi and ODM improve both MMLU accuracy and corpus-level perplexity over default proportions when pretraining Qwen2.5-1.5B on SlimPajama at 6B and 30B token scales. DataFlex also achieves consistent runtime improvements over original implementations. These results demonstrate that DataFlex provides an effective, efficient, and reproducible infrastructure for data-centric dynamic training of LLMs.

DataFlex: Um Framework Unificado para o Treinamento Dinâmico Centrado em Dados de Modelos de Linguagem de Grande Porte

DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models

Resumo

Support