ChatPaper.aiChatPaper

Een Token is Meer dan 1.000 Tokens Waard: Efficiënte Kennisdistillatie via Laag-Rang Kloon

A Token is Worth over 1,000 Tokens: Efficient Knowledge Distillation through Low-Rank Clone

May 19, 2025
Auteurs: Jitai Hao, Qiang Huang, Hao Liu, Xinyan Xiao, Zhaochun Ren, Jun Yu
cs.AI

Samenvatting

Het trainen van hoogpresterende Kleine Taalmodellen (SLMs) blijft kostbaar, zelfs met kennisdistillatie en pruning van grotere leraarmodellen. Bestaand werk wordt vaak geconfronteerd met drie belangrijke uitdagingen: (1) informatieverlies door harde pruning, (2) inefficiënte uitlijning van representaties, en (3) onderbenutting van informatieve activaties, met name van Feed-Forward Networks (FFNs). Om deze uitdagingen aan te pakken, introduceren we Low-Rank Clone (LRC), een efficiënte pre-trainingsmethode die SLMs construeert die streven naar gedragsequivalentie met sterke leraarmodellen. LRC traint een set van laag-rang projectiematrices die gezamenlijk zachte pruning mogelijk maken door de gewichten van de leraar te comprimeren, en activatieklonen door de activaties van de student, inclusief FFN-signalen, uit te lijnen met die van de leraar. Dit geïntegreerde ontwerp maximaliseert kennisoverdracht terwijl de behoefte aan expliciete uitlijningsmodules wordt weggenomen. Uitgebreide experimenten met open-source leraarmodellen (bijv. Llama-3.2-3B-Instruct, Qwen2.5-3B/7B-Instruct) tonen aan dat LRC de prestaties van state-of-the-art modellen die getraind zijn op biljoenen tokens evenaart of overtreft—terwijl slechts 20B tokens worden gebruikt, wat een trainingsrendement van meer dan 1.000x oplevert. Onze code en modelcheckpoints zijn beschikbaar op https://github.com/CURRENTF/LowRankClone en https://huggingface.co/collections/JitaiHao/low-rank-clone-lrc-6828389e96a93f1d4219dfaf.
English
Training high-performing Small Language Models (SLMs) remains costly, even with knowledge distillation and pruning from larger teacher models. Existing work often faces three key challenges: (1) information loss from hard pruning, (2) inefficient alignment of representations, and (3) underutilization of informative activations, particularly from Feed-Forward Networks (FFNs). To address these challenges, we introduce Low-Rank Clone (LRC), an efficient pre-training method that constructs SLMs aspiring to behavioral equivalence with strong teacher models. LRC trains a set of low-rank projection matrices that jointly enable soft pruning by compressing teacher weights, and activation clone by aligning student activations, including FFN signals, with those of the teacher. This unified design maximizes knowledge transfer while removing the need for explicit alignment modules. Extensive experiments with open-source teachers (e.g., Llama-3.2-3B-Instruct, Qwen2.5-3B/7B-Instruct) show that LRC matches or surpasses state-of-the-art models trained on trillions of tokens--while using only 20B tokens, achieving over 1,000x training efficiency. Our codes and model checkpoints are available at https://github.com/CURRENTF/LowRankClone and https://huggingface.co/collections/JitaiHao/low-rank-clone-lrc-6828389e96a93f1d4219dfaf.

Summary

AI-Generated Summary

PDF22May 20, 2025