Taylor-Calibrate: Principe-gebaseerde initialisatie voor hybride lineaire aandachtsdistillatie

Samenvatting

Hybride lineaire aandachtsmodellen bieden een aantrekkelijke weg naar snellere inferentie met lange context: ze verminderen de kwadratische kosten en KV-cache-belasting van volledige softmax-aandacht, terwijl ze veel van de kwaliteit van Transformermodellen behouden. Een praktische manier om dergelijke modellen te verkrijgen, is door een voorgetrainde Transformer om te zetten in plaats van een nieuwe architectuur helemaal opnieuw te trainen, maar deze conversie is nog steeds broos. Het simpelweg kopiëren van de aandachtprojecties van de leraar naar een Gated DeltaNet (GDN)-student specificeert niet de nieuwe recurrente verval-, schrijf- en uitgangspoortdynamiek. Als gevolg hiervan start het geconverteerde model vaak in een slecht dynamisch regime en moet het veel distillatietokens besteden aan het herstellen van de initialisatie in plaats van het leren van het resterende gedrag van de leraar. Wij stellen Taylor-Calibrate voor, een lichtgewicht initialisatiemethode voor hybride GDN-studenten. De methode gebruikt door Taylor geleide statistieken van de lerarenaandacht om de waardenprojectie, geheugentijdsschaal, schrijfpoorten en uitgangspoort in te stellen, en past vervolgens een korte per-laag uitlijningsstap toe om elke geconverteerde laag af te stemmen op de uitvoer van de leraar. Bij vier leraarinstellingen en drie beleidsregels voor behouden lagen levert Taylor-Calibrate aanzienlijk sterkere zero-shot-studenten op, met een verbetering tot 88x in een representatieve ablatie, en bereikt het overeenkomende hersteldoelen met 4,9x–9,2x minder trainingssymbolen dan naïeve conversie.

English

Hybrid linear attention models offer an appealing path to faster long-context inference: they reduce the quadratic cost and KV-cache burden of full softmax attention while retaining much of the quality of Transformer models. A practical way to obtain such models is to convert a pretrained Transformer instead of pretraining a new architecture from scratch, but this conversion is still brittle. Simply copying the teacher attention projections into a Gated DeltaNet (GDN) student does not specify the new recurrent decay, write, and output-gating dynamics. As a result, the converted model often starts in a poor dynamical regime and must spend many distillation tokens repairing initialization rather than learning the remaining teacher behavior. We propose Taylor-Calibrate, a lightweight initialization method for hybrid GDN students. The method uses Taylor-guided teacher attention statistics to set the value projection, memory timescale, write gates, and output gate, then applies a short per-layer alignment step to match each converted layer to the teacher output. Across four teacher settings and three retained-layer policies, Taylor-Calibrate gives substantially stronger zero-shot students, with up to an 88x improvement in a representative ablation, and reaches matched recovery targets with 4.9x--9.2x fewer training tokens than naive conversion.