ChatPaper.aiChatPaper

SampleMix : Une stratégie de mélange de données de pré-entraînement échantillon par échantillon par coordination de la qualité et de la diversité des données

SampleMix: A Sample-wise Pre-training Data Mixing Strategey by Coordinating Data Quality and Diversity

March 3, 2025
Auteurs: Xiangyu Xi, Deyang Kong, Jian Yang, Jiawei Yang, Zhengyu Chen, Wei Wang, Jingang Wang, Xunliang Cai, Shikun Zhang, Wei Ye
cs.AI

Résumé

Les méthodes existantes de mélange de données pour le pré-entraînement des grands modèles de langage (LLM) suivent généralement une approche par domaine, un processus descendant qui détermine d'abord les pondérations des domaines puis effectue un échantillonnage uniforme des données dans chaque domaine. Cependant, ces approches négligent les chevauchements et les points communs significatifs entre les domaines, ne parvenant pas à contrôler la diversité globale de l'ensemble de données d'entraînement construit. De plus, l'échantillonnage uniforme au sein des domaines ignore les caractéristiques spécifiques à chaque échantillon à un niveau granulaire, ce qui peut conduire à une distribution sous-optimale des données. Pour remédier à ces lacunes, nous proposons une nouvelle approche de mélange de données basée sur un paradigme ascendant, échantillon par échantillon. Cette méthode effectue un échantillonnage global inter-domaines en évaluant systématiquement la qualité et la diversité de chaque échantillon, déterminant ainsi dynamiquement la distribution optimale des domaines. Des expériences approfondies sur plusieurs tâches en aval et des évaluations de perplexité démontrent que SampleMix surpasse les méthodes existantes basées sur les domaines. Par ailleurs, SampleMix nécessite entre 1,4 et 2,1 fois plus d'étapes d'entraînement pour atteindre les performances de référence, mettant en évidence le potentiel considérable de SampleMix pour optimiser les données de pré-entraînement.
English
Existing pretraining data mixing methods for large language models (LLMs) typically follow a domain-wise methodology, a top-down process that first determines domain weights and then performs uniform data sampling across each domain. However, these approaches neglect significant inter-domain overlaps and commonalities, failing to control the global diversity of the constructed training dataset. Further, uniform sampling within domains ignores fine-grained sample-specific features, potentially leading to suboptimal data distribution. To address these shortcomings, we propose a novel sample-wise data mixture approach based on a bottom-up paradigm. This method performs global cross-domain sampling by systematically evaluating the quality and diversity of each sample, thereby dynamically determining the optimal domain distribution. Comprehensive experiments across multiple downstream tasks and perplexity assessments demonstrate that SampleMix surpasses existing domain-based methods. Meanwhile, SampleMix requires 1.4x to 2.1x training steps to achieves the baselines' performance, highlighting the substantial potential of SampleMix to optimize pre-training data.

Summary

AI-Generated Summary

PDF92March 4, 2025