ChatPaper.aiChatPaper

Um Token Vale mais que Mil Tokens: Distilação Eficiente de Conhecimento através de Clones de Baixa Dimensionalidade

A Token is Worth over 1,000 Tokens: Efficient Knowledge Distillation through Low-Rank Clone

May 19, 2025
Autores: Jitai Hao, Qiang Huang, Hao Liu, Xinyan Xiao, Zhaochun Ren, Jun Yu
cs.AI

Resumo

Treinar Small Language Models (SLMs) de alto desempenho continua sendo custoso, mesmo com o uso de destilação de conhecimento e poda de modelos professores maiores. Os trabalhos existentes frequentemente enfrentam três desafios principais: (1) perda de informação devido à poda rígida, (2) alinhamento ineficiente de representações e (3) subutilização de ativações informativas, especialmente das Redes Feed-Forward (FFNs). Para abordar esses desafios, introduzimos o Low-Rank Clone (LRC), um método eficiente de pré-treinamento que constrói SLMs que aspiram à equivalência comportamental com modelos professores robustos. O LRC treina um conjunto de matrizes de projeção de baixa classificação que permitem conjuntamente a poda suave, comprimindo os pesos do professor, e a clonagem de ativações, alinhando as ativações do aluno, incluindo sinais das FFNs, com as do professor. Esse design unificado maximiza a transferência de conhecimento enquanto elimina a necessidade de módulos explícitos de alinhamento. Experimentos extensivos com modelos professores de código aberto (por exemplo, Llama-3.2-3B-Instruct, Qwen2.5-3B/7B-Instruct) mostram que o LRC iguala ou supera os modelos state-of-the-art treinados com trilhões de tokens—utilizando apenas 20 bilhões de tokens, alcançando uma eficiência de treinamento superior a 1.000x. Nossos códigos e checkpoints de modelo estão disponíveis em https://github.com/CURRENTF/LowRankClone e https://huggingface.co/collections/JitaiHao/low-rank-clone-lrc-6828389e96a93f1d4219dfaf.
English
Training high-performing Small Language Models (SLMs) remains costly, even with knowledge distillation and pruning from larger teacher models. Existing work often faces three key challenges: (1) information loss from hard pruning, (2) inefficient alignment of representations, and (3) underutilization of informative activations, particularly from Feed-Forward Networks (FFNs). To address these challenges, we introduce Low-Rank Clone (LRC), an efficient pre-training method that constructs SLMs aspiring to behavioral equivalence with strong teacher models. LRC trains a set of low-rank projection matrices that jointly enable soft pruning by compressing teacher weights, and activation clone by aligning student activations, including FFN signals, with those of the teacher. This unified design maximizes knowledge transfer while removing the need for explicit alignment modules. Extensive experiments with open-source teachers (e.g., Llama-3.2-3B-Instruct, Qwen2.5-3B/7B-Instruct) show that LRC matches or surpasses state-of-the-art models trained on trillions of tokens--while using only 20B tokens, achieving over 1,000x training efficiency. Our codes and model checkpoints are available at https://github.com/CURRENTF/LowRankClone and https://huggingface.co/collections/JitaiHao/low-rank-clone-lrc-6828389e96a93f1d4219dfaf.
PDF22May 20, 2025