ChatPaper.aiChatPaper

Un jeton vaut plus de 1 000 jetons : distillation efficace des connaissances via un clone de faible rang

A Token is Worth over 1,000 Tokens: Efficient Knowledge Distillation through Low-Rank Clone

May 19, 2025
Auteurs: Jitai Hao, Qiang Huang, Hao Liu, Xinyan Xiao, Zhaochun Ren, Jun Yu
cs.AI

Résumé

L'entraînement de petits modèles de langage (SLMs) performants reste coûteux, même avec l'utilisation de la distillation de connaissances et de l'élagage à partir de modèles enseignants plus grands. Les travaux existants se heurtent souvent à trois défis majeurs : (1) la perte d'information due à l'élagage brutal, (2) l'alignement inefficace des représentations, et (3) la sous-utilisation des activations informatives, en particulier celles provenant des réseaux feed-forward (FFN). Pour relever ces défis, nous introduisons Low-Rank Clone (LRC), une méthode d'entraînement préalable efficace qui construit des SLMs visant une équivalence comportementale avec des modèles enseignants puissants. LRC entraîne un ensemble de matrices de projection de faible rang qui permettent conjointement un élagage doux en compressant les poids du modèle enseignant, et un clonage des activations en alignant les activations de l'élève, y compris les signaux FFN, avec celles du modèle enseignant. Cette conception unifiée maximise le transfert de connaissances tout en éliminant le besoin de modules d'alignement explicites. Des expériences approfondies avec des modèles enseignants open-source (par exemple, Llama-3.2-3B-Instruct, Qwen2.5-3B/7B-Instruct) montrent que LRC égale ou dépasse les modèles de pointe entraînés sur des milliers de milliards de tokens—tout en utilisant seulement 20 milliards de tokens, atteignant une efficacité d'entraînement supérieure à 1000x. Nos codes et points de contrôle de modèle sont disponibles à l'adresse https://github.com/CURRENTF/LowRankClone et https://huggingface.co/collections/JitaiHao/low-rank-clone-lrc-6828389e96a93f1d4219dfaf.
English
Training high-performing Small Language Models (SLMs) remains costly, even with knowledge distillation and pruning from larger teacher models. Existing work often faces three key challenges: (1) information loss from hard pruning, (2) inefficient alignment of representations, and (3) underutilization of informative activations, particularly from Feed-Forward Networks (FFNs). To address these challenges, we introduce Low-Rank Clone (LRC), an efficient pre-training method that constructs SLMs aspiring to behavioral equivalence with strong teacher models. LRC trains a set of low-rank projection matrices that jointly enable soft pruning by compressing teacher weights, and activation clone by aligning student activations, including FFN signals, with those of the teacher. This unified design maximizes knowledge transfer while removing the need for explicit alignment modules. Extensive experiments with open-source teachers (e.g., Llama-3.2-3B-Instruct, Qwen2.5-3B/7B-Instruct) show that LRC matches or surpasses state-of-the-art models trained on trillions of tokens--while using only 20B tokens, achieving over 1,000x training efficiency. Our codes and model checkpoints are available at https://github.com/CURRENTF/LowRankClone and https://huggingface.co/collections/JitaiHao/low-rank-clone-lrc-6828389e96a93f1d4219dfaf.

Summary

AI-Generated Summary

PDF22May 20, 2025