Test-Time Training met KV-binding is in Werkelijkheid Lineaire Aandacht

Samenvatting

Test-time training (TTT) met KV-binding als sequentiemodelleerlaag wordt vaak geïnterpreteerd als een vorm van online meta-leren die een key-value-mapping onthoudt tijdens de testfase. Onze analyse onthult echter meerdere fenomenen die in tegenspraak zijn met deze op geheugen gebaseerde interpretatie. Gemotiveerd door deze bevindingen, herzien we de formulering van TTT en tonen we aan dat een brede klasse van TTT-architecturen kan worden uitgedrukt als een vorm van geleerde lineaire aandachtoperator. Naast het verklaren van voorheen raadselachtige modelgedragingen, levert dit perspectief meerdere praktische voordelen op: het maakt principiële architectonische vereenvoudigingen mogelijk, staat volledig parallelle formuleringen toe die de prestaties behouden terwijl de efficiëntie verbetert, en biedt een systematische reductie van diverse TTT-varianten tot een standaard lineaire aandachtvorm. Over het geheel genomen herformuleren onze resultaten TTT niet als testtijd-geheugen, maar als geleerde lineaire aandacht met een verbeterde representatiecapaciteit.

English

Test-time training (TTT) with KV binding as sequence modeling layer is commonly interpreted as a form of online meta-learning that memorizes a key-value mapping at test time. However, our analysis reveals multiple phenomena that contradict this memorization-based interpretation. Motivated by these findings, we revisit the formulation of TTT and show that a broad class of TTT architectures can be expressed as a form of learned linear attention operator. Beyond explaining previously puzzling model behaviors, this perspective yields multiple practical benefits: it enables principled architectural simplifications, admits fully parallel formulations that preserve performance while improving efficiency, and provides a systematic reduction of diverse TTT variants to a standard linear attention form. Overall, our results reframe TTT not as test-time memorization, but as learned linear attention with enhanced representational capacity.

Test-Time Training met KV-binding is in Werkelijkheid Lineaire Aandacht

Test-Time Training with KV Binding Is Secretly Linear Attention

Samenvatting

Support