Un Token Vale Più di 1.000 Token: Distillazione Efficiente della Conoscenza attraverso Cloni a Basso Rango
A Token is Worth over 1,000 Tokens: Efficient Knowledge Distillation through Low-Rank Clone
May 19, 2025
Autori: Jitai Hao, Qiang Huang, Hao Liu, Xinyan Xiao, Zhaochun Ren, Jun Yu
cs.AI
Abstract
L'addestramento di Small Language Models (SLM) ad alte prestazioni rimane costoso, anche con l'uso della distillazione della conoscenza e della potatura da modelli insegnanti più grandi. Il lavoro esistente spesso affronta tre sfide principali: (1) la perdita di informazioni dovuta alla potatura rigida, (2) l'allineamento inefficiente delle rappresentazioni e (3) il sottoutilizzo delle attivazioni informative, in particolare quelle provenienti dalle Feed-Forward Networks (FFN). Per affrontare queste sfide, introduciamo Low-Rank Clone (LRC), un metodo efficiente di pre-addestramento che costruisce SLM aspirando all'equivalenza comportamentale con modelli insegnanti forti. LRC addestra un insieme di matrici di proiezione a basso rango che consentono congiuntamente una potatura morbida comprimendo i pesi del modello insegnante e una clonazione delle attivazioni allineando le attivazioni dello studente, inclusi i segnali delle FFN, con quelle del modello insegnante. Questo design unificato massimizza il trasferimento di conoscenza eliminando la necessità di moduli di allineamento espliciti. Esperimenti estesi con modelli insegnanti open-source (ad esempio, Llama-3.2-3B-Instruct, Qwen2.5-3B/7B-Instruct) dimostrano che LRC eguaglia o supera i modelli all'avanguardia addestrati su trilioni di token, utilizzando solo 20 miliardi di token e raggiungendo un'efficienza di addestramento superiore a 1.000x. I nostri codici e checkpoint del modello sono disponibili su https://github.com/CURRENTF/LowRankClone e https://huggingface.co/collections/JitaiHao/low-rank-clone-lrc-6828389e96a93f1d4219dfaf.
English
Training high-performing Small Language Models (SLMs) remains costly, even
with knowledge distillation and pruning from larger teacher models. Existing
work often faces three key challenges: (1) information loss from hard pruning,
(2) inefficient alignment of representations, and (3) underutilization of
informative activations, particularly from Feed-Forward Networks (FFNs). To
address these challenges, we introduce Low-Rank Clone (LRC), an efficient
pre-training method that constructs SLMs aspiring to behavioral equivalence
with strong teacher models. LRC trains a set of low-rank projection matrices
that jointly enable soft pruning by compressing teacher weights, and activation
clone by aligning student activations, including FFN signals, with those of the
teacher. This unified design maximizes knowledge transfer while removing the
need for explicit alignment modules. Extensive experiments with open-source
teachers (e.g., Llama-3.2-3B-Instruct, Qwen2.5-3B/7B-Instruct) show that LRC
matches or surpasses state-of-the-art models trained on trillions of
tokens--while using only 20B tokens, achieving over 1,000x training efficiency.
Our codes and model checkpoints are available at
https://github.com/CURRENTF/LowRankClone and
https://huggingface.co/collections/JitaiHao/low-rank-clone-lrc-6828389e96a93f1d4219dfaf.