Een Token is Meer dan 1.000 Tokens Waard: Efficiënte Kennisdistillatie via Laag-Rang Kloon
A Token is Worth over 1,000 Tokens: Efficient Knowledge Distillation through Low-Rank Clone
May 19, 2025
Auteurs: Jitai Hao, Qiang Huang, Hao Liu, Xinyan Xiao, Zhaochun Ren, Jun Yu
cs.AI
Samenvatting
Het trainen van hoogpresterende Kleine Taalmodellen (SLMs) blijft kostbaar, zelfs
met kennisdistillatie en pruning van grotere leraarmodellen. Bestaand werk
wordt vaak geconfronteerd met drie belangrijke uitdagingen: (1) informatieverlies door harde pruning,
(2) inefficiënte uitlijning van representaties, en (3) onderbenutting van
informatieve activaties, met name van Feed-Forward Networks (FFNs). Om
deze uitdagingen aan te pakken, introduceren we Low-Rank Clone (LRC), een efficiënte
pre-trainingsmethode die SLMs construeert die streven naar gedragsequivalentie
met sterke leraarmodellen. LRC traint een set van laag-rang projectiematrices
die gezamenlijk zachte pruning mogelijk maken door de gewichten van de leraar te comprimeren, en activatieklonen door de activaties van de student, inclusief FFN-signalen, uit te lijnen met die van de
leraar. Dit geïntegreerde ontwerp maximaliseert kennisoverdracht terwijl de
behoefte aan expliciete uitlijningsmodules wordt weggenomen. Uitgebreide experimenten met open-source
leraarmodellen (bijv. Llama-3.2-3B-Instruct, Qwen2.5-3B/7B-Instruct) tonen aan dat LRC
de prestaties van state-of-the-art modellen die getraind zijn op biljoenen
tokens evenaart of overtreft—terwijl slechts 20B tokens worden gebruikt, wat een trainingsrendement van meer dan 1.000x oplevert.
Onze code en modelcheckpoints zijn beschikbaar op
https://github.com/CURRENTF/LowRankClone en
https://huggingface.co/collections/JitaiHao/low-rank-clone-lrc-6828389e96a93f1d4219dfaf.
English
Training high-performing Small Language Models (SLMs) remains costly, even
with knowledge distillation and pruning from larger teacher models. Existing
work often faces three key challenges: (1) information loss from hard pruning,
(2) inefficient alignment of representations, and (3) underutilization of
informative activations, particularly from Feed-Forward Networks (FFNs). To
address these challenges, we introduce Low-Rank Clone (LRC), an efficient
pre-training method that constructs SLMs aspiring to behavioral equivalence
with strong teacher models. LRC trains a set of low-rank projection matrices
that jointly enable soft pruning by compressing teacher weights, and activation
clone by aligning student activations, including FFN signals, with those of the
teacher. This unified design maximizes knowledge transfer while removing the
need for explicit alignment modules. Extensive experiments with open-source
teachers (e.g., Llama-3.2-3B-Instruct, Qwen2.5-3B/7B-Instruct) show that LRC
matches or surpasses state-of-the-art models trained on trillions of
tokens--while using only 20B tokens, achieving over 1,000x training efficiency.
Our codes and model checkpoints are available at
https://github.com/CURRENTF/LowRankClone and
https://huggingface.co/collections/JitaiHao/low-rank-clone-lrc-6828389e96a93f1d4219dfaf.Summary
AI-Generated Summary