Test-Time Training met KV-binding is in Werkelijkheid Lineaire Aandacht
Test-Time Training with KV Binding Is Secretly Linear Attention
February 24, 2026
Auteurs: Junchen Liu, Sven Elflein, Or Litany, Zan Gojcic, Ruilong Li
cs.AI
Samenvatting
Test-time training (TTT) met KV-binding als sequentiemodelleerlaag wordt vaak geïnterpreteerd als een vorm van online meta-leren die een key-value-mapping onthoudt tijdens de testfase. Onze analyse onthult echter meerdere fenomenen die in tegenspraak zijn met deze op geheugen gebaseerde interpretatie. Gemotiveerd door deze bevindingen, herzien we de formulering van TTT en tonen we aan dat een brede klasse van TTT-architecturen kan worden uitgedrukt als een vorm van geleerde lineaire aandachtoperator. Naast het verklaren van voorheen raadselachtige modelgedragingen, levert dit perspectief meerdere praktische voordelen op: het maakt principiële architectonische vereenvoudigingen mogelijk, staat volledig parallelle formuleringen toe die de prestaties behouden terwijl de efficiëntie verbetert, en biedt een systematische reductie van diverse TTT-varianten tot een standaard lineaire aandachtvorm. Over het geheel genomen herformuleren onze resultaten TTT niet als testtijd-geheugen, maar als geleerde lineaire aandacht met een verbeterde representatiecapaciteit.
English
Test-time training (TTT) with KV binding as sequence modeling layer is commonly interpreted as a form of online meta-learning that memorizes a key-value mapping at test time. However, our analysis reveals multiple phenomena that contradict this memorization-based interpretation. Motivated by these findings, we revisit the formulation of TTT and show that a broad class of TTT architectures can be expressed as a form of learned linear attention operator. Beyond explaining previously puzzling model behaviors, this perspective yields multiple practical benefits: it enables principled architectural simplifications, admits fully parallel formulations that preserve performance while improving efficiency, and provides a systematic reduction of diverse TTT variants to a standard linear attention form. Overall, our results reframe TTT not as test-time memorization, but as learned linear attention with enhanced representational capacity.