DataFlex: Единая структура для динамического обучения больших языковых моделей с ориентацией на данные

Аннотация

Обучение с фокусом на данных стало перспективным направлением для улучшения больших языковых моделей (LLM), оптимизируя не только параметры модели, но и выбор, композицию и взвешивание обучающих данных в процессе оптимизации. Однако существующие подходы к отбору данных, оптимизации их смесей и перевзвешиванию часто разрабатываются в изолированных кодовых базах с несогласованными интерфейсами, что затрудняет воспроизводимость, честное сравнение и практическую интеграцию. В данной статье мы представляем DataFlex, унифицированную инфраструктуру для динамического обучения с фокусом на данных, построенную на основе LLaMA-Factory. DataFlex поддерживает три основные парадигмы динамической оптимизации данных: выбор примеров, настройку доменной смеси и перевзвешивание примеров, оставаясь полностью совместимой с исходным рабочим процессом обучения. Она предоставляет расширяемые абстракции тренажеров и модульные компоненты, позволяя легко заменить стандартное обучение LLM, и унифицирует ключевые зависящие от модели операции, такие как извлечение эмбеддингов, вывод и вычисление градиентов, с поддержкой масштабирования, включая DeepSpeed ZeRO-3. Мы провели всесторонние эксперименты с несколькими методами, ориентированными на данные. Динамический отбор данных стабильно превосходит статическое обучение на полном наборе данных на benchmark'е MMLU для моделей Mistral-7B и Llama-3.2-3B. Для оптимизации смесей данных методы DoReMi и ODM улучшают как точность на MMLU, так и перплексию на уровне корпуса по сравнению с пропорциями по умолчанию при предварительном обучении Qwen2.5-1.5B на SlimPajama с объемами в 6 и 30 миллиардов токенов. DataFlex также демонстрирует стабильное улучшение времени выполнения по сравнению с оригинальными реализациями. Эти результаты показывают, что DataFlex предоставляет эффективную, производительную и воспроизводимую инфраструктуру для динамического обучения LLM с фокусом на данных.

English

Data-centric training has emerged as a promising direction for improving large language models (LLMs) by optimizing not only model parameters but also the selection, composition, and weighting of training data during optimization. However, existing approaches to data selection, data mixture optimization, and data reweighting are often developed in isolated codebases with inconsistent interfaces, hindering reproducibility, fair comparison, and practical integration. In this paper, we present DataFlex, a unified data-centric dynamic training framework built upon LLaMA-Factory. DataFlex supports three major paradigms of dynamic data optimization: sample selection, domain mixture adjustment, and sample reweighting, while remaining fully compatible with the original training workflow. It provides extensible trainer abstractions and modular components, enabling a drop-in replacement for standard LLM training, and unifies key model-dependent operations such as embedding extraction, inference, and gradient computation, with support for large-scale settings including DeepSpeed ZeRO-3. We conduct comprehensive experiments across multiple data-centric methods. Dynamic data selection consistently outperforms static full-data training on MMLU across both Mistral-7B and Llama-3.2-3B. For data mixture, DoReMi and ODM improve both MMLU accuracy and corpus-level perplexity over default proportions when pretraining Qwen2.5-1.5B on SlimPajama at 6B and 30B token scales. DataFlex also achieves consistent runtime improvements over original implementations. These results demonstrate that DataFlex provides an effective, efficient, and reproducible infrastructure for data-centric dynamic training of LLMs.

DataFlex: Единая структура для динамического обучения больших языковых моделей с ориентацией на данные

DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models

Аннотация

Support