TriAttention : Raisonnement long efficace grâce à la compression trigonométrique des clés-valeurs

Résumé

Le raisonnement étendu dans les grands modèles de langage (LLM) crée de sévères goulots d'étranglement mémoire au niveau du cache KV. Les principales méthodes de compression du cache KV estiment l'importance des clés (K) et des valeurs (V) en utilisant les scores d'attention des requêtes récentes post-RoPE. Cependant, les requêtes subissent une rotation avec la position lors de l'application du RoPE, ce qui rend les requêtes représentatives très rares, conduisant à une sélection médiocre des clés prioritaires et à un raisonnement instable. Pour éviter ce problème, nous nous tournons vers l'espace pré-RoPE, où nous observons que les vecteurs Q (requête) et K (clé) sont fortement concentrés autour de centres fixes non nuls et restent stables quelle que soit la position – c'est la concentration Q/K. Nous montrons que cette concentration amène les requêtes à accorder préférentiellement leur attention aux clés situées à des distances spécifiques (par exemple, les clés les plus proches), les centres déterminant quelles distances sont privilégiées via une série trigonométrique. Sur cette base, nous proposons TriAttention pour estimer l'importance des clés en exploitant ces centres. Via la série trigonométrique, nous utilisons la préférence de distance caractérisée par ces centres pour noter les clés en fonction de leurs positions, et nous exploitons également les normes Q/K comme signal supplémentaire pour l'estimation de l'importance. Sur AIME25 avec une génération de 32K tokens, TriAttention atteint la même précision de raisonnement que l'Attention Complète tout en obtenant un débit 2,5 fois supérieur ou une réduction de la mémoire KV de 10,7 fois, alors que les meilleures méthodes de référence n'atteignent qu'environ la moitié de la précision à la même efficacité. TriAttention permet le déploiement d'OpenClaw sur un seul GPU grand public, là où un contexte long provoquerait normalement un dépassement de mémoire avec l'Attention Complète.

English

Extended reasoning in large language models (LLMs) creates severe KV cache memory bottlenecks. Leading KV cache compression methods estimate KV importance using attention scores from recent post-RoPE queries. However, queries rotate with position during RoPE, making representative queries very few, leading to poor top-key selection and unstable reasoning. To avoid this issue, we turn to the pre-RoPE space, where we observe that Q and K vectors are highly concentrated around fixed non-zero centers and remain stable across positions -- Q/K concentration. We show that this concentration causes queries to preferentially attend to keys at specific distances (e.g., nearest keys), with the centers determining which distances are preferred via a trigonometric series. Based on this, we propose TriAttention to estimate key importance by leveraging these centers. Via the trigonometric series, we use the distance preference characterized by these centers to score keys according to their positions, and also leverage Q/K norms as an additional signal for importance estimation. On AIME25 with 32K-token generation, TriAttention matches Full Attention reasoning accuracy while achieving 2.5x higher throughput or 10.7x KV memory reduction, whereas leading baselines achieve only about half the accuracy at the same efficiency. TriAttention enables OpenClaw deployment on a single consumer GPU, where long context would otherwise cause out-of-memory with Full Attention.

TriAttention : Raisonnement long efficace grâce à la compression trigonométrique des clés-valeurs

TriAttention: Efficient Long Reasoning with Trigonometric KV Compression

Résumé

Support