Sélection efficace de données à grande échelle par distillation d'influence
Efficient Data Selection at Scale via Influence Distillation
May 25, 2025
Auteurs: Mahdi Nikdan, Vincent Cohen-Addad, Dan Alistarh, Vahab Mirrokni
cs.AI
Résumé
La sélection efficace des données est cruciale pour l'entraînement performant des modèles de langage de grande taille (LLMs) modernes. Cet article présente Influence Distillation, un cadre novateur et mathématiquement justifié pour la sélection des données, qui utilise des informations de second ordre pour pondérer de manière optimale les échantillons d'entraînement. En distillant l'influence de chaque échantillon sur une distribution cible, notre méthode attribue des poids spécifiques au modèle, utilisés pour sélectionner les données d'entraînement lors du réglage fin des LLMs, orientant ainsi le modèle vers une performance optimale dans le domaine cible. Nous dérivons ces poids optimaux pour les optimiseurs Gradient Descent et Adam. Pour garantir l'évolutivité et réduire les coûts de calcul, nous proposons une approximation basée sur des points de repère : l'influence est calculée avec précision pour un petit sous-ensemble d'échantillons "points de repère", puis propagée efficacement à tous les autres échantillons pour déterminer leurs poids. Nous validons Influence Distillation en l'appliquant au réglage par instruction sur le jeu de données Tulu V2, ciblant une gamme de tâches incluant GSM8k, SQuAD et MMLU, sur plusieurs modèles des familles Llama et Qwen. Les expériences montrent qu'Influence Distillation égal ou surpasse les performances de pointe tout en réalisant une sélection jusqu'à 3,5 fois plus rapide.
English
Effective data selection is critical for efficient training of modern Large
Language Models (LLMs). This paper introduces Influence Distillation, a novel,
mathematically-justified framework for data selection that employs second-order
information to optimally weight training samples. By distilling each sample's
influence on a target distribution, our method assigns model-specific weights
that are used to select training data for LLM fine-tuning, guiding it toward
strong performance on the target domain. We derive these optimal weights for
both Gradient Descent and Adam optimizers. To ensure scalability and reduce
computational cost, we propose a landmark-based approximation:
influence is precisely computed for a small subset of "landmark" samples and
then efficiently propagated to all other samples to determine their weights. We
validate Influence Distillation by applying it to instruction tuning on the
Tulu V2 dataset, targeting a range of tasks including GSM8k, SQuAD, and MMLU,
across several models from the Llama and Qwen families. Experiments show that
Influence Distillation matches or outperforms state-of-the-art performance
while achieving up to 3.5times faster selection.Summary
AI-Generated Summary