ChatPaper.aiChatPaper

Обучение во время тестирования с привязкой ключей и значений является скрытой линейной внимательностью

Test-Time Training with KV Binding Is Secretly Linear Attention

February 24, 2026
Авторы: Junchen Liu, Sven Elflein, Or Litany, Zan Gojcic, Ruilong Li
cs.AI

Аннотация

Обучение на этапе тестирования (TTT) с привязкой «ключ-значение» в качестве слоя моделирования последовательностей обычно интерпретируется как форма онлайн мета-обучения, которая запоминает соответствие «ключ-значение» во время тестирования. Однако наш анализ выявляет ряд явлений, противоречащих этой интерпретации, основанной на запоминании. Мотивированные этими находками, мы заново исследуем формулировку TTT и показываем, что широкий класс архитектур TTT можно выразить как форму обученного оператора линейного внимания. Помимо объяснения ранее загадочных модельных поведений, эта перспектива дает несколько практических преимуществ: она позволяет проводить принципиальные архитектурные упрощения, допускает полностью параллельные формулировки, сохраняющие производительность при повышении эффективности, и предоставляет систематическую редукцию различных вариантов TTT к стандартной форме линейного внимания. В целом наши результаты переосмысливают TTT не как запоминание на этапе тестирования, а как обученное линейное внимание с расширенной репрезентационной способностью.
English
Test-time training (TTT) with KV binding as sequence modeling layer is commonly interpreted as a form of online meta-learning that memorizes a key-value mapping at test time. However, our analysis reveals multiple phenomena that contradict this memorization-based interpretation. Motivated by these findings, we revisit the formulation of TTT and show that a broad class of TTT architectures can be expressed as a form of learned linear attention operator. Beyond explaining previously puzzling model behaviors, this perspective yields multiple practical benefits: it enables principled architectural simplifications, admits fully parallel formulations that preserve performance while improving efficiency, and provides a systematic reduction of diverse TTT variants to a standard linear attention form. Overall, our results reframe TTT not as test-time memorization, but as learned linear attention with enhanced representational capacity.
PDF302March 28, 2026