Один токен стоит более тысячи токенов: эффективное дистилляция знаний через низкоранговое клонирование
A Token is Worth over 1,000 Tokens: Efficient Knowledge Distillation through Low-Rank Clone
May 19, 2025
Авторы: Jitai Hao, Qiang Huang, Hao Liu, Xinyan Xiao, Zhaochun Ren, Jun Yu
cs.AI
Аннотация
Обучение высокопроизводительных малых языковых моделей (SLMs) остается затратным, даже с использованием методов дистилляции знаний и обрезки из более крупных моделей-учителей. Существующие подходы часто сталкиваются с тремя ключевыми проблемами: (1) потеря информации из-за жесткой обрезки, (2) неэффективное согласование представлений и (3) недостаточное использование информативных активаций, особенно из прямых сетей (FFN). Для решения этих проблем мы представляем Low-Rank Clone (LRC) — эффективный метод предварительного обучения, который создает SLMs, стремящиеся к поведенческой эквивалентности с мощными моделями-учителями. LRC обучает набор матриц низкого ранга, которые совместно обеспечивают мягкую обрезку путем сжатия весов учителя и клонирование активаций путем согласования активаций ученика, включая сигналы FFN, с активациями учителя. Этот унифицированный подход максимизирует передачу знаний, устраняя необходимость в явных модулях согласования. Многочисленные эксперименты с открытыми моделями-учителями (например, Llama-3.2-3B-Instruct, Qwen2.5-3B/7B-Instruct) показывают, что LRC соответствует или превосходит современные модели, обученные на триллионах токенов, — при использовании всего 20 миллиардов токенов, достигая более чем 1000-кратной эффективности обучения. Наши коды и контрольные точки моделей доступны по адресам https://github.com/CURRENTF/LowRankClone и https://huggingface.co/collections/JitaiHao/low-rank-clone-lrc-6828389e96a93f1d4219dfaf.
English
Training high-performing Small Language Models (SLMs) remains costly, even
with knowledge distillation and pruning from larger teacher models. Existing
work often faces three key challenges: (1) information loss from hard pruning,
(2) inefficient alignment of representations, and (3) underutilization of
informative activations, particularly from Feed-Forward Networks (FFNs). To
address these challenges, we introduce Low-Rank Clone (LRC), an efficient
pre-training method that constructs SLMs aspiring to behavioral equivalence
with strong teacher models. LRC trains a set of low-rank projection matrices
that jointly enable soft pruning by compressing teacher weights, and activation
clone by aligning student activations, including FFN signals, with those of the
teacher. This unified design maximizes knowledge transfer while removing the
need for explicit alignment modules. Extensive experiments with open-source
teachers (e.g., Llama-3.2-3B-Instruct, Qwen2.5-3B/7B-Instruct) show that LRC
matches or surpasses state-of-the-art models trained on trillions of
tokens--while using only 20B tokens, achieving over 1,000x training efficiency.
Our codes and model checkpoints are available at
https://github.com/CURRENTF/LowRankClone and
https://huggingface.co/collections/JitaiHao/low-rank-clone-lrc-6828389e96a93f1d4219dfaf.Summary
AI-Generated Summary