Taylor-Calibrate: Prinzipienbasierte Initialisierung für hybride lineare Aufmerksamkeitsdestillation

Zusammenfassung

Hybride lineare Aufmerksamkeitsmodelle bieten einen vielversprechenden Weg zu schnellerer Langkontext-Inferenz: Sie reduzieren die quadratischen Kosten und die KV-Cache-Belastung der vollständigen Softmax-Aufmerksamkeit, während sie einen Großteil der Qualität von Transformer-Modellen bewahren. Ein praktischer Weg, solche Modelle zu erhalten, besteht darin, einen vortrainierten Transformer zu konvertieren, anstatt eine neue Architektur von Grund auf neu zu trainieren. Diese Konvertierung ist jedoch weiterhin fragil. Das bloße Kopieren der Lehrer-Aufmerksamkeitsprojektionen in einen Gated-DeltaNet (GDN)-Schüler spezifiziert nicht die neuen rekurrenten Dynamiken des Vergessens, Schreibens und Ausgangs-Gatings. Infolgedessen beginnt das konvertierte Modell oft in einem schlechten dynamischen Regime und muss viele Destillationstoken aufwenden, um die Initialisierung zu reparieren, anstatt das verbleibende Lehrer-Verhalten zu erlernen. Wir schlagen Taylor-Calibrate vor, eine leichtgewichtige Initialisierungsmethode für hybride GDN-Schüler. Die Methode nutzt Taylor-gesteuerte Lehrer-Aufmerksamkeitsstatistiken, um die Wertprojektion, die Gedächtniszeitskala, die Schreib-Gates und das Ausgangs-Gate zu setzen, und wendet dann einen kurzen, schichtweisen Abgleichsschritt an, um jede konvertierte Schicht an die Lehrerausgabe anzupassen. Über vier Lehrer-Einstellungen und drei Strategien für beibehaltene Schichten hinweg liefert Taylor-Calibrate substanziell stärkere Zero-Shot-Schüler, mit einer Verbesserung von bis zu 88x in einer repräsentativen Ablation, und erreicht angestrebte Wiederherstellungsziele mit 4,9- bis 9,2-mal weniger Trainingstoken als die naive Konvertierung.

English

Hybrid linear attention models offer an appealing path to faster long-context inference: they reduce the quadratic cost and KV-cache burden of full softmax attention while retaining much of the quality of Transformer models. A practical way to obtain such models is to convert a pretrained Transformer instead of pretraining a new architecture from scratch, but this conversion is still brittle. Simply copying the teacher attention projections into a Gated DeltaNet (GDN) student does not specify the new recurrent decay, write, and output-gating dynamics. As a result, the converted model often starts in a poor dynamical regime and must spend many distillation tokens repairing initialization rather than learning the remaining teacher behavior. We propose Taylor-Calibrate, a lightweight initialization method for hybrid GDN students. The method uses Taylor-guided teacher attention statistics to set the value projection, memory timescale, write gates, and output gate, then applies a short per-layer alignment step to match each converted layer to the teacher output. Across four teacher settings and three retained-layer policies, Taylor-Calibrate gives substantially stronger zero-shot students, with up to an 88x improvement in a representative ablation, and reaches matched recovery targets with 4.9x--9.2x fewer training tokens than naive conversion.