Taylor-Calibrate: Принципиальная инициализация для гибридной дистилляции линейного внимания

Аннотация

Гибридные модели линейного внимания предлагают многообещающий путь к более быстрому инференсу длинных контекстов: они снижают квадратичную стоимость и нагрузку на KV-кэш полного softmax-внимания, сохраняя при этом значительную часть качества моделей Transformer. Практический способ получения таких моделей заключается в конвертации предобученного Transformer вместо обучения новой архитектуры с нуля, однако такая конвертация остаётся неустойчивой. Простое копирование проекций внимания учителя в студента Gated DeltaNet (GDN) не задаёт новую рекуррентную динамику затухания, записи и выходного стробирования. В результате конвертированная модель часто начинает работу в плохом динамическом режиме и вынуждена тратить множество токенов дистилляции на исправление инициализации вместо изучения оставшегося поведения учителя. Мы предлагаем Taylor-Calibrate — легковесный метод инициализации для гибридных студентов GDN. Метод использует статистику внимания учителя, направляемую разложением Тейлора, для установки проекции значений, временного масштаба памяти, строгов записи и выходного строба, после чего применяет короткий шаг поканального выравнивания для согласования каждого конвертированного слоя с выходом учителя. В четырёх конфигурациях учителя и трёх стратегиях сохранённых слоёв Taylor-Calibrate даёт существенно более сильные нуль-шот студенты, с улучшением до 88 раз в репрезентативной абляции, и достигает целевых показателей восстановления при использовании в 4,9–9,2 раза меньшего количества обучающих токенов по сравнению с наивной конвертацией.

English

Hybrid linear attention models offer an appealing path to faster long-context inference: they reduce the quadratic cost and KV-cache burden of full softmax attention while retaining much of the quality of Transformer models. A practical way to obtain such models is to convert a pretrained Transformer instead of pretraining a new architecture from scratch, but this conversion is still brittle. Simply copying the teacher attention projections into a Gated DeltaNet (GDN) student does not specify the new recurrent decay, write, and output-gating dynamics. As a result, the converted model often starts in a poor dynamical regime and must spend many distillation tokens repairing initialization rather than learning the remaining teacher behavior. We propose Taylor-Calibrate, a lightweight initialization method for hybrid GDN students. The method uses Taylor-guided teacher attention statistics to set the value projection, memory timescale, write gates, and output gate, then applies a short per-layer alignment step to match each converted layer to the teacher output. Across four teacher settings and three retained-layer policies, Taylor-Calibrate gives substantially stronger zero-shot students, with up to an 88x improvement in a representative ablation, and reaches matched recovery targets with 4.9x--9.2x fewer training tokens than naive conversion.