Distillation efficace vers des architectures xLSTM hybrides

Résumé

De nombreuses tentatives ont été faites pour distiller les grands modèles de langage (LLM) basés sur une attention quadratique en des architectures linéarisées sous-quadratiques. Cependant, malgré des recherches approfondies, ces modèles distillés échouent souvent à égaler les performances de leurs modèles enseignants sur diverses tâches en aval. Nous nous fixons pour objectif une distillation sans perte, que nous définissons en termes de taux Win-and-Tie corrigés par tolérance entre l'étudiant et l'enseignant sur des ensembles de tâches. À cette fin, nous introduisons un pipeline de distillation efficace pour des étudiants basés sur des xLSTM. Nous proposons une étape de fusion supplémentaire, où des experts individuellement linéarisés sont combinés en un modèle unique. Nous démontrons l'efficacité de ce pipeline en distillant des modèles de base et des modèles ajustés par instructions des familles Llama, Qwen et Olmo. Dans de nombreux contextes, nos étudiants basés sur des xLSTM récupèrent la majeure partie des performances de l'enseignant, et les dépassent même sur certaines tâches en aval. Nos contributions constituent une étape importante vers des remplacements plus économes en énergie et plus rentables des LLM basés sur des transformeurs.

English

There have been numerous attempts to distill quadratic attention-based large language models (LLMs) into sub-quadratic linearized architectures. However, despite extensive research, such distilled models often fail to match the performance of their teacher LLMs on various downstream tasks. We set out the goal of lossless distillation, which we define in terms of tolerance-corrected Win-and-Tie rates between student and teacher on sets of tasks. To this end, we introduce an effective distillation pipeline for xLSTM-based students. We propose an additional merging stage, where individually linearized experts are combined into a single model. We show the effectiveness of this pipeline by distilling base and instruction-tuned models from the Llama, Qwen, and Olmo families. In many settings, our xLSTM-based students recover most of the teacher's performance, and even exceed it on some downstream tasks. Our contributions are an important step towards more energy-efficient and cost-effective replacements for transformer-based LLMs.

Distillation efficace vers des architectures xLSTM hybrides

Effective Distillation to Hybrid xLSTM Architectures

Résumé

Support