L’apprentissage au moment du test avec liaison KV est secrètement une attention linéaire

Résumé

L'apprentissage au moment du test (TTT) avec liaison clé-valeur comme couche de modélisation séquentielle est communément interprété comme une forme de méta-apprentissage en ligne qui mémorise un mapping clé-valeur lors du test. Cependant, notre analyse révèle plusieurs phénomènes qui contredisent cette interprétation basée sur la mémorisation. Motivés par ces découvertes, nous revisitons la formulation du TTT et montrons qu'une large classe d'architectures TTT peut s'exprimer comme une forme d'opérateur d'attention linéaire appris. Au-delà d'expliquer des comportements de modèles auparavant déroutants, cette perspective offre plusieurs avantages pratiques : elle permet des simplifications architecturales fondées, admet des formulations entièrement parallèles qui préservent les performances tout en améliorant l'efficacité, et fournit une réduction systématique de diverses variantes de TTT à une forme standard d'attention linéaire. Globalement, nos résultats recadrent le TTT non pas comme une mémorisation au moment du test, mais comme une attention linéaire apprise avec une capacité représentationnelle accrue.

English

Test-time training (TTT) with KV binding as sequence modeling layer is commonly interpreted as a form of online meta-learning that memorizes a key-value mapping at test time. However, our analysis reveals multiple phenomena that contradict this memorization-based interpretation. Motivated by these findings, we revisit the formulation of TTT and show that a broad class of TTT architectures can be expressed as a form of learned linear attention operator. Beyond explaining previously puzzling model behaviors, this perspective yields multiple practical benefits: it enables principled architectural simplifications, admits fully parallel formulations that preserve performance while improving efficiency, and provides a systematic reduction of diverse TTT variants to a standard linear attention form. Overall, our results reframe TTT not as test-time memorization, but as learned linear attention with enhanced representational capacity.

L’apprentissage au moment du test avec liaison KV est secrètement une attention linéaire

Test-Time Training with KV Binding Is Secretly Linear Attention

Résumé

Support