Taylor-Calibrate: Inicialización Fundamentada para Destilación de Atención Lineal Híbrida

Resumen

Los modelos de atención lineal híbrida ofrecen una vía atractiva para una inferencia de contexto largo más rápida: reducen el costo cuadrático y la carga de caché KV de la atención softmax completa, al tiempo que conservan gran parte de la calidad de los modelos Transformer. Una forma práctica de obtener dichos modelos es convertir un Transformer preentrenado en lugar de preentrenar una nueva arquitectura desde cero, pero esta conversión sigue siendo frágil. Simplemente copiar las proyecciones de atención del profesor en un estudiante Gated DeltaNet (GDN) no especifica la nueva dinámica de decaimiento recurrente, escritura y compuerta de salida. Como resultado, el modelo convertido a menudo comienza en un régimen dinámico deficiente y debe dedicar muchos tokens de destilación a reparar la inicialización en lugar de aprender el comportamiento restante del profesor. Proponemos Taylor-Calibrate, un método de inicialización ligero para estudiantes GDN híbridos. El método utiliza estadísticas de atención del profesor guiadas por Taylor para establecer la proyección de valor, la escala de tiempo de la memoria, las compuertas de escritura y la compuerta de salida, y luego aplica un breve paso de alineación por capa para ajustar cada capa convertida a la salida del profesor. En cuatro configuraciones de profesor y tres políticas de capas retenidas, Taylor-Calibrate proporciona estudiantes de cero disparos sustancialmente más sólidos, con una mejora de hasta 88 veces en una ablación representativa, y alcanza objetivos de recuperación equiparados con entre 4.9 y 9.2 veces menos tokens de entrenamiento que la conversión ingenua.

English

Hybrid linear attention models offer an appealing path to faster long-context inference: they reduce the quadratic cost and KV-cache burden of full softmax attention while retaining much of the quality of Transformer models. A practical way to obtain such models is to convert a pretrained Transformer instead of pretraining a new architecture from scratch, but this conversion is still brittle. Simply copying the teacher attention projections into a Gated DeltaNet (GDN) student does not specify the new recurrent decay, write, and output-gating dynamics. As a result, the converted model often starts in a poor dynamical regime and must spend many distillation tokens repairing initialization rather than learning the remaining teacher behavior. We propose Taylor-Calibrate, a lightweight initialization method for hybrid GDN students. The method uses Taylor-guided teacher attention statistics to set the value projection, memory timescale, write gates, and output gate, then applies a short per-layer alignment step to match each converted layer to the teacher output. Across four teacher settings and three retained-layer policies, Taylor-Calibrate gives substantially stronger zero-shot students, with up to an 88x improvement in a representative ablation, and reaches matched recovery targets with 4.9x--9.2x fewer training tokens than naive conversion.