TriAttention: Effizientes Langzeit-Reasoning mit trigonometrischer KV-Kompression

Zusammenfassung

Erweitertes Schließen in großen Sprachmodellen (LLMs) führt zu erheblichen Speicher-Engpässen im KV-Cache. Führende KV-Cache-Kompressionsverfahren schätzen die Wichtigkeit von KV-Einträgen anhand von Aufmerksamkeitswerten aus aktuellen Post-RoPE-Queries. Jedoch rotieren Queries während der RoPE mit der Position, was repräsentative Queries sehr selten macht und zu einer schlechten Top-Key-Auswahl sowie instabilem Schließen führt. Um dieses Problem zu vermeiden, wenden wir uns dem Prä-RoPE-Raum zu, wo wir beobachten, dass Q- und K-Vektoren stark um feste, von Null verschiedene Zentren konzentriert sind und positionsübergreifend stabil bleiben – die Q/K-Konzentration. Wir zeigen, dass diese Konzentration dazu führt, dass Queries bevorzugt Schlüssel (Keys) in bestimmten Entfernungen beachten (z.B. nächste Keys), wobei die Zentren über eine trigonometrische Reihe bestimmen, welche Entfernungen bevorzugt werden. Auf dieser Grundlage schlagen wir TriAttention vor, um die Wichtigkeit von Schlüsseln durch Nutzung dieser Zentren zu schätzen. Mittels der trigonometrischen Reihe nutzen wir die durch diese Zentren charakterisierte Entfernungspräferenz, um Schlüssel basierend auf ihrer Position zu bewerten, und ziehen zusätzlich die Q/K-Normen als weiteres Signal für die Wichtigkeits-Schätzung heran. Auf AIME25 mit 32K-Token-Generierung erreicht TriAttention die Reasoning-Genauigkeit von Full Attention, bei gleichzeitig 2,5-fach höherem Durchsatz oder 10,7-facher KV-Speicherreduzierung, während führende Baseline-Methoden bei gleicher Effizienz nur etwa die Hälfte der Genauigkeit erreichen. TriAttention ermöglicht die Bereitstellung von OpenClaw auf einer einzelnen Consumer-GPU, wo lange Kontexte mit Full Attention ansonsten zu Speichermangel (Out-of-Memory) führen würden.

English

Extended reasoning in large language models (LLMs) creates severe KV cache memory bottlenecks. Leading KV cache compression methods estimate KV importance using attention scores from recent post-RoPE queries. However, queries rotate with position during RoPE, making representative queries very few, leading to poor top-key selection and unstable reasoning. To avoid this issue, we turn to the pre-RoPE space, where we observe that Q and K vectors are highly concentrated around fixed non-zero centers and remain stable across positions -- Q/K concentration. We show that this concentration causes queries to preferentially attend to keys at specific distances (e.g., nearest keys), with the centers determining which distances are preferred via a trigonometric series. Based on this, we propose TriAttention to estimate key importance by leveraging these centers. Via the trigonometric series, we use the distance preference characterized by these centers to score keys according to their positions, and also leverage Q/K norms as an additional signal for importance estimation. On AIME25 with 32K-token generation, TriAttention matches Full Attention reasoning accuracy while achieving 2.5x higher throughput or 10.7x KV memory reduction, whereas leading baselines achieve only about half the accuracy at the same efficiency. TriAttention enables OpenClaw deployment on a single consumer GPU, where long context would otherwise cause out-of-memory with Full Attention.

TriAttention: Effizientes Langzeit-Reasoning mit trigonometrischer KV-Kompression

TriAttention: Efficient Long Reasoning with Trigonometric KV Compression

Zusammenfassung

Support