TriAttention: Raciocínio Longo Eficiente com Compressão KV Trigonométrica
TriAttention: Efficient Long Reasoning with Trigonometric KV Compression
April 6, 2026
Autores: Weian Mao, Xi Lin, Wei Huang, Yuxin Xie, Tianfu Fu, Bohan Zhuang, Song Han, Yukang Chen
cs.AI
Resumo
O raciocínio estendido em modelos de linguagem de grande escala (LLMs) cria graves estrangulamentos de memória na cache KV. Os principais métodos de compressão da cache KV estimam a importância das chaves (K) e valores (V) usando escores de atenção de consultas (Q) recentes do espaço pós-RoPE. No entanto, as consultas sofrem rotação com a posição durante o RoPE, tornando as consultas representativas muito escassas, o que leva a uma seleção inadequada das principais chaves e a um raciocínio instável. Para evitar este problema, voltamo-nos para o espaço pré-RoPE, onde observamos que os vetores Q e K estão altamente concentrados em torno de centros fixos não nulos e permanecem estáveis entre posições – a Concentração Q/K. Demonstramos que esta concentração faz com que as consultas atendam preferencialmente a chaves em distâncias específicas (por exemplo, as chaves mais próximas), sendo que os centros determinam quais distâncias são preferidas através de uma série trigonométrica. Com base nisto, propomos o TriAttention para estimar a importância das chaves, aproveitando estes centros. Através da série trigonométrica, usamos a preferência de distância caracterizada por estes centros para classificar as chaves de acordo com as suas posições, e também aproveitamos as normas Q/K como um sinal adicional para a estimativa de importância. No AIME25 com geração de 32K *tokens*, o TriAttention iguala a precisão de raciocínio da Atenção Completa (Full Attention), ao mesmo tempo que alcança um *throughput* 2,5x superior ou uma redução de memória KV de 10,7x, enquanto as principais *baselines* alcançam apenas cerca de metade da precisão na mesma eficiência. O TriAttention permite a implantação do OpenClaw numa única GPU de consumo, onde um contexto longo causaria de outra forma falta de memória (*out-of-memory*) com a Atenção Completa.
English
Extended reasoning in large language models (LLMs) creates severe KV cache memory bottlenecks. Leading KV cache compression methods estimate KV importance using attention scores from recent post-RoPE queries. However, queries rotate with position during RoPE, making representative queries very few, leading to poor top-key selection and unstable reasoning. To avoid this issue, we turn to the pre-RoPE space, where we observe that Q and K vectors are highly concentrated around fixed non-zero centers and remain stable across positions -- Q/K concentration. We show that this concentration causes queries to preferentially attend to keys at specific distances (e.g., nearest keys), with the centers determining which distances are preferred via a trigonometric series. Based on this, we propose TriAttention to estimate key importance by leveraging these centers. Via the trigonometric series, we use the distance preference characterized by these centers to score keys according to their positions, and also leverage Q/K norms as an additional signal for importance estimation. On AIME25 with 32K-token generation, TriAttention matches Full Attention reasoning accuracy while achieving 2.5x higher throughput or 10.7x KV memory reduction, whereas leading baselines achieve only about half the accuracy at the same efficiency. TriAttention enables OpenClaw deployment on a single consumer GPU, where long context would otherwise cause out-of-memory with Full Attention.