TriAttention: Ragionamento Lungo Efficiente con Compressione Trigonometrica KV

Abstract

Il ragionamento esteso nei grandi modelli linguistici (LLM) crea severi colli di bottiglia della memoria KV cache. I principali metodi di compressione della KV cache stimano l'importanza delle chiavi utilizzando i punteggi di attenzione provenienti da query recenti post-RoPE. Tuttavia, le query ruotano con la posizione durante il RoPE, rendendo le query rappresentative molto poche, il che porta a una scarsa selezione delle chiavi più importanti e a un ragionamento instabile. Per evitare questo problema, ci rivolgiamo allo spazio pre-RoPE, dove osserviamo che i vettori Q e K sono altamente concentrati attorno a centri fissi non nulli e rimangono stabili attraverso le posizioni — un fenomeno che chiamiamo Concentrazione Q/K. Dimostriamo che questa concentrazione fa sì che le query prestino attenzione preferenziale alle chiavi a distanze specifiche (ad esempio, le chiavi più vicine), con i centri che determinano quali distanze sono preferite tramite una serie trigonometrica. Sulla base di ciò, proponiamo TriAttention per stimare l'importanza delle chiavi sfruttando questi centri. Attraverso la serie trigonometrica, utilizziamo la preferenza di distanza caratterizzata da questi centri per assegnare un punteggio alle chiavi in base alle loro posizioni, e sfruttiamo anche le norme Q/K come segnale aggiuntivo per la stima dell'importanza. Su AIME25 con generazione di token di 32K, TriAttention eguaglia l'accuratezza di ragionamento della Full Attention raggiungendo un throughput 2,5 volte superiore o una riduzione della memoria KV di 10,7 volte, mentre i principali baseline raggiungono solo circa la metà dell'accuratezza alla stessa efficienza. TriAttention consente la distribuzione di OpenClaw su una singola GPU consumer, dove contesti lunghi causerebbero altrimenti un esaurimento della memoria con la Full Attention.

English

Extended reasoning in large language models (LLMs) creates severe KV cache memory bottlenecks. Leading KV cache compression methods estimate KV importance using attention scores from recent post-RoPE queries. However, queries rotate with position during RoPE, making representative queries very few, leading to poor top-key selection and unstable reasoning. To avoid this issue, we turn to the pre-RoPE space, where we observe that Q and K vectors are highly concentrated around fixed non-zero centers and remain stable across positions -- Q/K concentration. We show that this concentration causes queries to preferentially attend to keys at specific distances (e.g., nearest keys), with the centers determining which distances are preferred via a trigonometric series. Based on this, we propose TriAttention to estimate key importance by leveraging these centers. Via the trigonometric series, we use the distance preference characterized by these centers to score keys according to their positions, and also leverage Q/K norms as an additional signal for importance estimation. On AIME25 with 32K-token generation, TriAttention matches Full Attention reasoning accuracy while achieving 2.5x higher throughput or 10.7x KV memory reduction, whereas leading baselines achieve only about half the accuracy at the same efficiency. TriAttention enables OpenClaw deployment on a single consumer GPU, where long context would otherwise cause out-of-memory with Full Attention.

TriAttention: Ragionamento Lungo Efficiente con Compressione Trigonometrica KV

TriAttention: Efficient Long Reasoning with Trigonometric KV Compression

Abstract

Support