El Entrenamiento en Tiempo de Prueba con Enlace KV es Secretamente una Atención Lineal

Resumen

El entrenamiento en el momento de la prueba (TTT) con enlace clave-valor como capa de modelado de secuencias se interpreta comúnmente como una forma de metaaprendizaje en línea que memoriza un mapeo clave-valor durante la prueba. Sin embargo, nuestro análisis revela múltiples fenómenos que contradicen esta interpretación basada en memorización. Motivados por estos hallazgos, revisitamos la formulación de TTT y demostramos que una amplia clase de arquitecturas TTT puede expresarse como una forma de operador de atención lineal aprendido. Más allá de explicar comportamientos del modelo previamente desconcertantes, esta perspectiva ofrece múltiples beneficios prácticos: permite simplificaciones arquitectónicas fundamentadas, admite formulaciones completamente paralelas que preservan el rendimiento mientras mejoran la eficiencia, y proporciona una reducción sistemática de diversas variantes de TTT a una forma estándar de atención lineal. En general, nuestros resultados reenfocan el TTT no como una memorización en el momento de la prueba, sino como una atención lineal aprendida con capacidad representacional mejorada.

English

Test-time training (TTT) with KV binding as sequence modeling layer is commonly interpreted as a form of online meta-learning that memorizes a key-value mapping at test time. However, our analysis reveals multiple phenomena that contradict this memorization-based interpretation. Motivated by these findings, we revisit the formulation of TTT and show that a broad class of TTT architectures can be expressed as a form of learned linear attention operator. Beyond explaining previously puzzling model behaviors, this perspective yields multiple practical benefits: it enables principled architectural simplifications, admits fully parallel formulations that preserve performance while improving efficiency, and provides a systematic reduction of diverse TTT variants to a standard linear attention form. Overall, our results reframe TTT not as test-time memorization, but as learned linear attention with enhanced representational capacity.

El Entrenamiento en Tiempo de Prueba con Enlace KV es Secretamente una Atención Lineal

Test-Time Training with KV Binding Is Secretly Linear Attention

Resumen

Support