Treinamento no Momento do Teste com Vinculação KV é Secretamente uma Atenção Linear

Resumo

O treinamento em tempo de teste (TTT) com ligação KV como camada de modelagem de sequência é comumente interpretado como uma forma de meta-aprendizado online que memoriza um mapeamento chave-valor durante o teste. No entanto, nossa análise revela múltiplos fenômenos que contradizem essa interpretação baseada em memorização. Motivados por essas descobertas, revisitamos a formulação do TTT e mostramos que uma ampla classe de arquiteturas TTT pode ser expressa como uma forma de operador de atenção linear aprendido. Além de explicar comportamentos do modelo previamente intrigantes, esta perspectiva oferece múltiplos benefícios práticos: permite simplificações arquitetônicas fundamentadas, admite formulações totalmente paralelas que preservam o desempenho enquanto melhoram a eficiência, e fornece uma redução sistemática de diversas variantes de TTT para uma forma padrão de atenção linear. No geral, nossos resultados reformulam o TTT não como memorização em tempo de teste, mas como atenção linear aprendida com capacidade representacional aprimorada.

English

Test-time training (TTT) with KV binding as sequence modeling layer is commonly interpreted as a form of online meta-learning that memorizes a key-value mapping at test time. However, our analysis reveals multiple phenomena that contradict this memorization-based interpretation. Motivated by these findings, we revisit the formulation of TTT and show that a broad class of TTT architectures can be expressed as a form of learned linear attention operator. Beyond explaining previously puzzling model behaviors, this perspective yields multiple practical benefits: it enables principled architectural simplifications, admits fully parallel formulations that preserve performance while improving efficiency, and provides a systematic reduction of diverse TTT variants to a standard linear attention form. Overall, our results reframe TTT not as test-time memorization, but as learned linear attention with enhanced representational capacity.