Destilación Eficiente hacia Arquitecturas Híbridas xLSTM
Effective Distillation to Hybrid xLSTM Architectures
March 16, 2026
Autores: Lukas Hauzenberger, Niklas Schmidinger, Thomas Schmied, Anamaria-Roberta Hartl, David Stap, Pieter-Jan Hoedt, Maximilian Beck, Sebastian Böck, Günter Klambauer, Sepp Hochreiter
cs.AI
Resumen
Se han realizado numerosos intentos de destilar modelos de lenguaje grande (LLM) basados en atención cuadrática en arquitecturas linealizadas de complejidad subcuadrática. Sin embargo, a pesar de la extensa investigación, dichos modelos destilados a menudo no logran igualar el rendimiento de sus LLM maestros en diversas tareas posteriores. Nos planteamos el objetivo de una destilación sin pérdidas, que definimos en términos de tasas de Ganar y Empatar corregidas por tolerancia entre el estudiante y el maestro en conjuntos de tareas. Con este fin, presentamos una canalización de destilación efectiva para estudiantes basados en xLSTM. Proponemos una etapa adicional de fusión, donde expertos individualmente linealizados se combinan en un único modelo. Demostramos la efectividad de esta canalización destilando modelos base y ajustados por instrucciones de las familias Llama, Qwen y Olmo. En muchos escenarios, nuestros estudiantes basados en xLSTM recuperan la mayor parte del rendimiento del maestro e incluso lo superan en algunas tareas posteriores. Nuestras contribuciones son un paso importante hacia reemplazos más eficientes energéticamente y rentables para los LLM basados en transformadores.
English
There have been numerous attempts to distill quadratic attention-based large language models (LLMs) into sub-quadratic linearized architectures. However, despite extensive research, such distilled models often fail to match the performance of their teacher LLMs on various downstream tasks. We set out the goal of lossless distillation, which we define in terms of tolerance-corrected Win-and-Tie rates between student and teacher on sets of tasks. To this end, we introduce an effective distillation pipeline for xLSTM-based students. We propose an additional merging stage, where individually linearized experts are combined into a single model. We show the effectiveness of this pipeline by distilling base and instruction-tuned models from the Llama, Qwen, and Olmo families. In many settings, our xLSTM-based students recover most of the teacher's performance, and even exceed it on some downstream tasks. Our contributions are an important step towards more energy-efficient and cost-effective replacements for transformer-based LLMs.