Un Token Vale más de 1,000 Tokens: Destilación Eficiente de Conocimiento mediante Clonación de Bajo Rango
A Token is Worth over 1,000 Tokens: Efficient Knowledge Distillation through Low-Rank Clone
May 19, 2025
Autores: Jitai Hao, Qiang Huang, Hao Liu, Xinyan Xiao, Zhaochun Ren, Jun Yu
cs.AI
Resumen
Entrenar modelos de lenguaje pequeños (SLMs, por sus siglas en inglés) de alto rendimiento sigue siendo costoso, incluso con el uso de destilación de conocimiento y poda a partir de modelos maestros más grandes. Los trabajos existentes suelen enfrentar tres desafíos clave: (1) pérdida de información debido a la poda dura, (2) alineación ineficiente de las representaciones, y (3) subutilización de activaciones informativas, particularmente de las Redes de Alimentación Directa (FFNs, por sus siglas en inglés). Para abordar estos desafíos, presentamos Low-Rank Clone (LRC), un método eficiente de preentrenamiento que construye SLMs que aspiran a la equivalencia conductual con modelos maestros robustos. LRC entrena un conjunto de matrices de proyección de bajo rango que permiten conjuntamente la poda suave mediante la compresión de los pesos del maestro, y la clonación de activaciones al alinear las activaciones del estudiante, incluidas las señales de las FFNs, con las del maestro. Este diseño unificado maximiza la transferencia de conocimiento mientras elimina la necesidad de módulos de alineación explícitos. Experimentos exhaustivos con maestros de código abierto (por ejemplo, Llama-3.2-3B-Instruct, Qwen2.5-3B/7B-Instruct) muestran que LRC iguala o supera a los modelos de última generación entrenados con billones de tokens, utilizando solo 20 mil millones de tokens, logrando una eficiencia de entrenamiento de más de 1,000 veces. Nuestros códigos y puntos de control del modelo están disponibles en https://github.com/CURRENTF/LowRankClone y https://huggingface.co/collections/JitaiHao/low-rank-clone-lrc-6828389e96a93f1d4219dfaf.
English
Training high-performing Small Language Models (SLMs) remains costly, even
with knowledge distillation and pruning from larger teacher models. Existing
work often faces three key challenges: (1) information loss from hard pruning,
(2) inefficient alignment of representations, and (3) underutilization of
informative activations, particularly from Feed-Forward Networks (FFNs). To
address these challenges, we introduce Low-Rank Clone (LRC), an efficient
pre-training method that constructs SLMs aspiring to behavioral equivalence
with strong teacher models. LRC trains a set of low-rank projection matrices
that jointly enable soft pruning by compressing teacher weights, and activation
clone by aligning student activations, including FFN signals, with those of the
teacher. This unified design maximizes knowledge transfer while removing the
need for explicit alignment modules. Extensive experiments with open-source
teachers (e.g., Llama-3.2-3B-Instruct, Qwen2.5-3B/7B-Instruct) show that LRC
matches or surpasses state-of-the-art models trained on trillions of
tokens--while using only 20B tokens, achieving over 1,000x training efficiency.
Our codes and model checkpoints are available at
https://github.com/CURRENTF/LowRankClone and
https://huggingface.co/collections/JitaiHao/low-rank-clone-lrc-6828389e96a93f1d4219dfaf.Summary
AI-Generated Summary