Ein Token ist mehr als 1.000 Token wert: Effiziente Wissensdistillation durch Low-Rank-Klone
A Token is Worth over 1,000 Tokens: Efficient Knowledge Distillation through Low-Rank Clone
May 19, 2025
Autoren: Jitai Hao, Qiang Huang, Hao Liu, Xinyan Xiao, Zhaochun Ren, Jun Yu
cs.AI
Zusammenfassung
Das Training von leistungsstarken Small Language Models (SLMs) bleibt kostspielig, selbst bei der Verwendung von Wissensdestillation und Pruning von größeren Lehrermodellen. Bestehende Arbeiten stehen oft vor drei zentralen Herausforderungen: (1) Informationsverlust durch hartes Pruning, (2) ineffiziente Ausrichtung von Repräsentationen und (3) unzureichende Nutzung informativer Aktivierungen, insbesondere aus Feed-Forward Networks (FFNs). Um diese Herausforderungen zu bewältigen, stellen wir Low-Rank Clone (LRC) vor, eine effiziente Pre-Training-Methode, die SLMs entwickelt, die eine Verhaltensäquivalenz zu starken Lehrermodellen anstreben. LRC trainiert eine Reihe von Low-Rank-Projektionsmatrizen, die gemeinsam ein weiches Pruning ermöglichen, indem sie die Gewichte des Lehrers komprimieren, und eine Aktivierungsklonierung, indem sie die Aktivierungen des Schülers, einschließlich der FFN-Signale, mit denen des Lehrers ausrichten. Dieses einheitliche Design maximiert den Wissenstransfer, während es den Bedarf an expliziten Ausrichtungsmodulen eliminiert. Umfangreiche Experimente mit Open-Source-Lehrermodellen (z.B. Llama-3.2-3B-Instruct, Qwen2.5-3B/7B-Instruct) zeigen, dass LRC mit state-of-the-art Modellen, die mit Billionen von Tokens trainiert wurden, gleichzieht oder sie übertrifft – während nur 20 Milliarden Tokens verwendet werden, was eine über 1.000-fache Trainingseffizienz erreicht. Unsere Codes und Modell-Checkpoints sind verfügbar unter https://github.com/CURRENTF/LowRankClone und https://huggingface.co/collections/JitaiHao/low-rank-clone-lrc-6828389e96a93f1d4219dfaf.
English
Training high-performing Small Language Models (SLMs) remains costly, even
with knowledge distillation and pruning from larger teacher models. Existing
work often faces three key challenges: (1) information loss from hard pruning,
(2) inefficient alignment of representations, and (3) underutilization of
informative activations, particularly from Feed-Forward Networks (FFNs). To
address these challenges, we introduce Low-Rank Clone (LRC), an efficient
pre-training method that constructs SLMs aspiring to behavioral equivalence
with strong teacher models. LRC trains a set of low-rank projection matrices
that jointly enable soft pruning by compressing teacher weights, and activation
clone by aligning student activations, including FFN signals, with those of the
teacher. This unified design maximizes knowledge transfer while removing the
need for explicit alignment modules. Extensive experiments with open-source
teachers (e.g., Llama-3.2-3B-Instruct, Qwen2.5-3B/7B-Instruct) show that LRC
matches or surpasses state-of-the-art models trained on trillions of
tokens--while using only 20B tokens, achieving over 1,000x training efficiency.
Our codes and model checkpoints are available at
https://github.com/CURRENTF/LowRankClone and
https://huggingface.co/collections/JitaiHao/low-rank-clone-lrc-6828389e96a93f1d4219dfaf.Summary
AI-Generated Summary