ChatPaper.aiChatPaper

TriAttention: Razonamiento Largo Eficiente con Compresión Trigonométrica de Claves-Valores

TriAttention: Efficient Long Reasoning with Trigonometric KV Compression

April 6, 2026
Autores: Weian Mao, Xi Lin, Wei Huang, Yuxin Xie, Tianfu Fu, Bohan Zhuang, Song Han, Yukang Chen
cs.AI

Resumen

El razonamiento extendido en modelos de lenguaje grandes (LLM) genera graves cuellos de botella en la memoria de la caché KV. Los principales métodos de compresión de la caché KV estiman la importancia de las KV utilizando puntuaciones de atención de consultas recientes post-RoPE. Sin embargo, las consultas rotan con la posición durante RoPE, lo que hace que las consultas representativas sean muy escasas, lo que conduce a una mala selección de claves principales y a un razonamiento inestable. Para evitar este problema, nos dirigimos al espacio pre-RoPE, donde observamos que los vectores Q y K están altamente concentrados alrededor de centros fijos no nulos y se mantienen estables en todas las posiciones: la Concentración Q/K. Demostramos que esta concentración hace que las consultas atiendan preferentemente a claves en distancias específicas (por ejemplo, las claves más cercanas), determinando los centros qué distancias se prefieren mediante una serie trigonométrica. Basándonos en esto, proponemos TriAttention para estimar la importancia de las claves aprovechando estos centros. Mediante la serie trigonométrica, utilizamos la preferencia de distancia caracterizada por estos centros para puntuar las claves según sus posiciones, y también aprovechamos las normas Q/K como una señal adicional para la estimación de importancia. En AIME25 con generación de 32K tokens, TriAttention iguala la precisión de razonamiento de la Atención Completa mientras logra un rendimiento 2.5 veces mayor o una reducción de la memoria KV de 10.7 veces, mientras que los principales métodos de referencia alcanzan solo aproximadamente la mitad de la precisión con la misma eficiencia. TriAttention permite el despliegue de OpenClaw en una única GPU de consumo, donde un contexto largo causaría de otro modo un desbordamiento de memoria con la Atención Completa.
English
Extended reasoning in large language models (LLMs) creates severe KV cache memory bottlenecks. Leading KV cache compression methods estimate KV importance using attention scores from recent post-RoPE queries. However, queries rotate with position during RoPE, making representative queries very few, leading to poor top-key selection and unstable reasoning. To avoid this issue, we turn to the pre-RoPE space, where we observe that Q and K vectors are highly concentrated around fixed non-zero centers and remain stable across positions -- Q/K concentration. We show that this concentration causes queries to preferentially attend to keys at specific distances (e.g., nearest keys), with the centers determining which distances are preferred via a trigonometric series. Based on this, we propose TriAttention to estimate key importance by leveraging these centers. Via the trigonometric series, we use the distance preference characterized by these centers to score keys according to their positions, and also leverage Q/K norms as an additional signal for importance estimation. On AIME25 with 32K-token generation, TriAttention matches Full Attention reasoning accuracy while achieving 2.5x higher throughput or 10.7x KV memory reduction, whereas leading baselines achieve only about half the accuracy at the same efficiency. TriAttention enables OpenClaw deployment on a single consumer GPU, where long context would otherwise cause out-of-memory with Full Attention.
PDF642April 8, 2026