Un Token Vale Più di 1.000 Token: Distillazione Efficiente della Conoscenza attraverso Cloni a Basso Rango

Abstract

L'addestramento di Small Language Models (SLM) ad alte prestazioni rimane costoso, anche con l'uso della distillazione della conoscenza e della potatura da modelli insegnanti più grandi. Il lavoro esistente spesso affronta tre sfide principali: (1) la perdita di informazioni dovuta alla potatura rigida, (2) l'allineamento inefficiente delle rappresentazioni e (3) il sottoutilizzo delle attivazioni informative, in particolare quelle provenienti dalle Feed-Forward Networks (FFN). Per affrontare queste sfide, introduciamo Low-Rank Clone (LRC), un metodo efficiente di pre-addestramento che costruisce SLM aspirando all'equivalenza comportamentale con modelli insegnanti forti. LRC addestra un insieme di matrici di proiezione a basso rango che consentono congiuntamente una potatura morbida comprimendo i pesi del modello insegnante e una clonazione delle attivazioni allineando le attivazioni dello studente, inclusi i segnali delle FFN, con quelle del modello insegnante. Questo design unificato massimizza il trasferimento di conoscenza eliminando la necessità di moduli di allineamento espliciti. Esperimenti estesi con modelli insegnanti open-source (ad esempio, Llama-3.2-3B-Instruct, Qwen2.5-3B/7B-Instruct) dimostrano che LRC eguaglia o supera i modelli all'avanguardia addestrati su trilioni di token, utilizzando solo 20 miliardi di token e raggiungendo un'efficienza di addestramento superiore a 1.000x. I nostri codici e checkpoint del modello sono disponibili su https://github.com/CURRENTF/LowRankClone e https://huggingface.co/collections/JitaiHao/low-rank-clone-lrc-6828389e96a93f1d4219dfaf.

English

Training high-performing Small Language Models (SLMs) remains costly, even with knowledge distillation and pruning from larger teacher models. Existing work often faces three key challenges: (1) information loss from hard pruning, (2) inefficient alignment of representations, and (3) underutilization of informative activations, particularly from Feed-Forward Networks (FFNs). To address these challenges, we introduce Low-Rank Clone (LRC), an efficient pre-training method that constructs SLMs aspiring to behavioral equivalence with strong teacher models. LRC trains a set of low-rank projection matrices that jointly enable soft pruning by compressing teacher weights, and activation clone by aligning student activations, including FFN signals, with those of the teacher. This unified design maximizes knowledge transfer while removing the need for explicit alignment modules. Extensive experiments with open-source teachers (e.g., Llama-3.2-3B-Instruct, Qwen2.5-3B/7B-Instruct) show that LRC matches or surpasses state-of-the-art models trained on trillions of tokens--while using only 20B tokens, achieving over 1,000x training efficiency. Our codes and model checkpoints are available at https://github.com/CURRENTF/LowRankClone and https://huggingface.co/collections/JitaiHao/low-rank-clone-lrc-6828389e96a93f1d4219dfaf.

Un Token Vale Più di 1.000 Token: Distillazione Efficiente della Conoscenza attraverso Cloni a Basso Rango

A Token is Worth over 1,000 Tokens: Efficient Knowledge Distillation through Low-Rank Clone

Abstract

Support