Test-Time Training mit KV-Binding ist im Grunde Lineare Aufmerksamkeit
Test-Time Training with KV Binding Is Secretly Linear Attention
February 24, 2026
Autoren: Junchen Liu, Sven Elflein, Or Litany, Zan Gojcic, Ruilong Li
cs.AI
Zusammenfassung
Test-Time Training (TTT) mit KV-Bindung als Sequenzmodellierungsschicht wird gemeinhin als eine Form des Online-Meta-Lernens interpretiert, das zur Testzeit eine Schlüssel-Wert-Zuordnung auswendig lernt. Unsere Analyse deckt jedoch mehrere Phänomene auf, die dieser auf Auswendiglernen basierenden Interpretation widersprechen. Angeregt durch diese Erkenntnisse untersuchen wir die Formulierung von TTT erneut und zeigen, dass eine breite Klasse von TTT-Architekturen als eine Form eines gelernten linearen Attention-Operators ausgedrückt werden kann. Über die Erklärung zuvor rätselhafter Modellverhalten hinaus bietet diese Perspektive mehrere praktische Vorteile: Sie ermöglicht prinzipielle architektonische Vereinfachungen, erlaubt vollständig parallele Formulierungen, die die Leistung bei verbesserter Effizienz bewahren, und bietet eine systematische Reduktion verschiedener TTT-Varianten auf eine standardisierte lineare Attention-Form. Insgesamt betrachten unsere Ergebnisse TTT nicht als Auswendiglernen zur Testzeit, sondern als gelernte lineare Attention mit erweiterter Repräsentationskapazität.
English
Test-time training (TTT) with KV binding as sequence modeling layer is commonly interpreted as a form of online meta-learning that memorizes a key-value mapping at test time. However, our analysis reveals multiple phenomena that contradict this memorization-based interpretation. Motivated by these findings, we revisit the formulation of TTT and show that a broad class of TTT architectures can be expressed as a form of learned linear attention operator. Beyond explaining previously puzzling model behaviors, this perspective yields multiple practical benefits: it enables principled architectural simplifications, admits fully parallel formulations that preserve performance while improving efficiency, and provides a systematic reduction of diverse TTT variants to a standard linear attention form. Overall, our results reframe TTT not as test-time memorization, but as learned linear attention with enhanced representational capacity.