DataFlex: Un Marco Unificado para el Entrenamiento Dinámico Centrado en Datos de Modelos de Lenguaje a Gran Escala

Resumen

El entrenamiento centrado en datos ha surgido como una dirección prometedora para mejorar los modelos de lenguaje grandes (LLM) al optimizar no solo los parámetros del modelo, sino también la selección, composición y ponderación de los datos de entrenamiento durante la optimización. Sin embargo, los enfoques existentes para la selección de datos, la optimización de mezclas de datos y la reponderación de datos a menudo se desarrollan en bases de código aisladas con interfaces inconsistentes, lo que dificulta la reproducibilidad, la comparación justa y la integración práctica. En este artículo, presentamos DataFlex, un framework unificado de entrenamiento dinámico centrado en datos construido sobre LLaMA-Factory. DataFlex soporta tres paradigmas principales de optimización dinámica de datos: selección de muestras, ajuste de mezcla de dominios y reponderación de muestras, manteniendo al mismo tiempo una compatibilidad total con el flujo de trabajo de entrenamiento original. Proporciona abstracciones de entrenador extensibles y componentes modulares, permitiendo un reemplazo directo del entrenamiento estándar de LLM, y unifica operaciones clave dependientes del modelo, como la extracción de *embeddings*, la inferencia y el cálculo de gradientes, con soporte para configuraciones a gran escala que incluyen DeepSpeed ZeRO-3. Realizamos experimentos exhaustivos con múltiples métodos centrados en datos. La selección dinámica de datos supera consistentemente al entrenamiento estático con todos los datos en MMLU tanto para Mistral-7B como para Llama-3.2-3B. Para la mezcla de datos, DoReMi y ODM mejoran tanto la precisión en MMLU como la perplejidad a nivel de corpus sobre las proporciones por defecto al realizar el preentrenamiento de Qwen2.5-1.5B en SlimPajama con escalas de 6B y 30B de tokens. DataFlex también logra mejoras consistentes en el tiempo de ejecución sobre las implementaciones originales. Estos resultados demuestran que DataFlex proporciona una infraestructura eficaz, eficiente y reproducible para el entrenamiento dinámico centrado en datos de los LLM.

English

Data-centric training has emerged as a promising direction for improving large language models (LLMs) by optimizing not only model parameters but also the selection, composition, and weighting of training data during optimization. However, existing approaches to data selection, data mixture optimization, and data reweighting are often developed in isolated codebases with inconsistent interfaces, hindering reproducibility, fair comparison, and practical integration. In this paper, we present DataFlex, a unified data-centric dynamic training framework built upon LLaMA-Factory. DataFlex supports three major paradigms of dynamic data optimization: sample selection, domain mixture adjustment, and sample reweighting, while remaining fully compatible with the original training workflow. It provides extensible trainer abstractions and modular components, enabling a drop-in replacement for standard LLM training, and unifies key model-dependent operations such as embedding extraction, inference, and gradient computation, with support for large-scale settings including DeepSpeed ZeRO-3. We conduct comprehensive experiments across multiple data-centric methods. Dynamic data selection consistently outperforms static full-data training on MMLU across both Mistral-7B and Llama-3.2-3B. For data mixture, DoReMi and ODM improve both MMLU accuracy and corpus-level perplexity over default proportions when pretraining Qwen2.5-1.5B on SlimPajama at 6B and 30B token scales. DataFlex also achieves consistent runtime improvements over original implementations. These results demonstrate that DataFlex provides an effective, efficient, and reproducible infrastructure for data-centric dynamic training of LLMs.

DataFlex: Un Marco Unificado para el Entrenamiento Dinámico Centrado en Datos de Modelos de Lenguaje a Gran Escala

DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models

Resumen

Support