Destilação Eficiente para Arquiteturas Híbridas xLSTM

Resumo

Houve inúmeras tentativas de destilar grandes modelos de linguagem (LLMs) baseados em atenção quadrática em arquiteturas linearizadas sub-quadráticas. No entanto, apesar de pesquisas extensas, tais modelos destilados frequentemente não conseguem igualar o desempenho de seus LLMs professores em várias tarefas subsequentes. Estabelecemos o objetivo de destilação sem perdas, que definimos em termos de taxas de Vitória e Empate corrigidas por tolerância entre o estudante e o professor em conjuntos de tarefas. Para este fim, introduzimos um *pipeline* de destilação eficaz para estudantes baseados em xLSTM. Propomos uma etapa adicional de fusão, onde especialistas individualmente linearizados são combinados em um único modelo. Demonstramos a eficácia deste *pipeline* destilando modelos base e ajustados por instrução das famílias Llama, Qwen e Olmo. Em muitos cenários, nossos estudantes baseados em xLSTM recuperam a maior parte do desempenho do professor e até o superam em algumas tarefas subsequentes. Nossas contribuições são um passo importante em direção a substitutos mais energeticamente eficientes e econômicos para LLMs baseados em *transformers*.

English

There have been numerous attempts to distill quadratic attention-based large language models (LLMs) into sub-quadratic linearized architectures. However, despite extensive research, such distilled models often fail to match the performance of their teacher LLMs on various downstream tasks. We set out the goal of lossless distillation, which we define in terms of tolerance-corrected Win-and-Tie rates between student and teacher on sets of tasks. To this end, we introduce an effective distillation pipeline for xLSTM-based students. We propose an additional merging stage, where individually linearized experts are combined into a single model. We show the effectiveness of this pipeline by distilling base and instruction-tuned models from the Llama, Qwen, and Olmo families. In many settings, our xLSTM-based students recover most of the teacher's performance, and even exceed it on some downstream tasks. Our contributions are an important step towards more energy-efficient and cost-effective replacements for transformer-based LLMs.