Эффективная дистилляция в гибридные архитектуры xLSTM

Аннотация

Многочисленные попытки дистилляции больших языковых моделей (LLM) с квадратичной внимательностью в субквадратичные линеаризованные архитектуры, несмотря на обширные исследования, часто не позволяют достичь производительности их учителей на различных downstream-задачах. Мы ставим цель безупречной дистилляции, которую определяем через скорректированные по допуску показатели Win-and-Tie между студентом и учителем на наборах задач. Для этого мы представляем эффективный конвейер дистилляции для студентов на основе xLSTM. Мы предлагаем дополнительный этап слияния, на котором индивидуально линеаризованные эксперты объединяются в единую модель. Мы демонстрируем эффективность этого подхода, дистиллируя базовые и инструктивно-настроенные модели из семейств Llama, Qwen и Olmo. Во многих сценариях наши студенты на основе xLSTM восстанавливают большую часть производительности учителя и даже превосходят её на некоторых downstream-задачах. Наш вклад является важным шагом на пути к более энергоэффективным и экономичным заменам LLM на основе трансформеров.

English

There have been numerous attempts to distill quadratic attention-based large language models (LLMs) into sub-quadratic linearized architectures. However, despite extensive research, such distilled models often fail to match the performance of their teacher LLMs on various downstream tasks. We set out the goal of lossless distillation, which we define in terms of tolerance-corrected Win-and-Tie rates between student and teacher on sets of tasks. To this end, we introduce an effective distillation pipeline for xLSTM-based students. We propose an additional merging stage, where individually linearized experts are combined into a single model. We show the effectiveness of this pipeline by distilling base and instruction-tuned models from the Llama, Qwen, and Olmo families. In many settings, our xLSTM-based students recover most of the teacher's performance, and even exceed it on some downstream tasks. Our contributions are an important step towards more energy-efficient and cost-effective replacements for transformer-based LLMs.

Эффективная дистилляция в гибридные архитектуры xLSTM

Effective Distillation to Hybrid xLSTM Architectures

Аннотация

Support