GUI-KV: Agenti GUI Efficienti tramite Cache KV con Consapevolezza Spazio-Temporale
GUI-KV: Efficient GUI Agents via KV Cache with Spatio-Temporal Awareness
October 1, 2025
Autori: Kung-Hsiang Huang, Haoyi Qiu, Yutong Dai, Caiming Xiong, Chien-Sheng Wu
cs.AI
Abstract
Gli agenti di interfaccia grafica utente (GUI) basati su modelli visione-linguaggio sono emersi come un approccio promettente per automatizzare i flussi di lavoro uomo-computer. Tuttavia, affrontano anche la sfida dell'inefficienza, poiché elaborano lunghe sequenze di screenshot ad alta risoluzione e risolvono compiti a lungo termine, rendendo l'inferenza lenta, costosa e vincolata dalla memoria. Sebbene la memorizzazione nella cache chiave-valore (KV) possa mitigare questo problema, archiviare l'intera cache è proibitivo per contesti ricchi di immagini. I metodi esistenti di compressione della cache sono subottimali, poiché non tengono conto della ridondanza spaziale e temporale delle GUI. In questo lavoro, analizziamo prima i modelli di attenzione nei carichi di lavoro degli agenti GUI e scopriamo che, a differenza delle immagini naturali, la sparsità dell'attenzione è uniformemente elevata in tutti i livelli del trasformatore. Questa intuizione motiva una semplice strategia di allocazione uniforme del budget, che dimostriamo empiricamente superare schemi più complessi che variano per livello. Basandoci su questo, introduciamo GUI-KV, un metodo di compressione della cache KV plug-and-play per agenti GUI che non richiede riaddestramento. GUI-KV combina due tecniche innovative: (i) la guida della salienza spaziale, che potenzia i punteggi di attenzione con la norma L2 degli stati nascosti per preservare meglio i token visivi semanticamente importanti, e (ii) il punteggio della ridondanza temporale, che proietta le chiavi dei frame precedenti sul sottospazio delle chiavi del frame corrente per potare preferenzialmente la storia ridondante. Su benchmark e modelli standard di agenti GUI, GUI-KV supera le baseline competitive di compressione KV, avvicinandosi all'accuratezza della cache completa con budget modesti. In particolare, in un'impostazione a 5 screenshot sul benchmark AgentNetBench, GUI-KV riduce i FLOP di decodifica del 38,9% aumentando l'accuratezza del passo del 4,1% rispetto alla baseline della cache completa. Questi risultati dimostrano che sfruttare le ridondanze specifiche delle GUI consente prestazioni efficienti e affidabili degli agenti.
English
Graphical user interface (GUI) agents built on vision-language models have
emerged as a promising approach to automate human-computer workflows. However,
they also face the inefficiency challenge as they process long sequences of
high-resolution screenshots and solving long-horizon tasks, making inference
slow, costly and memory-bound. While key-value (KV) caching can mitigate this,
storing the full cache is prohibitive for image-heavy contexts. Existing
cache-compression methods are sub-optimal as they do not account for the
spatial and temporal redundancy of GUIs. In this work, we first analyze
attention patterns in GUI agent workloads and find that, unlike in natural
images, attention sparsity is uniformly high across all transformer layers.
This insight motivates a simple uniform budget allocation strategy, which we
show empirically outperforms more complex layer-varying schemes. Building on
this, we introduce GUI-KV, a plug-and-play KV cache compression method for GUI
agents that requires no retraining. GUI-KV combines two novel techniques: (i)
spatial saliency guidance, which augments attention scores with the L2 norm of
hidden states to better preserve semantically important visual tokens, and (ii)
temporal redundancy scoring, which projects previous frames' keys onto the
current frame's key subspace to preferentially prune redundant history. Across
standard GUI agent benchmarks and models, GUI-KV outperforms competitive KV
compression baselines, closely matching full-cache accuracy at modest budgets.
Notably, in a 5-screenshot setting on the AgentNetBench benchmark, GUI-KV
reduces decoding FLOPs by 38.9% while increasing step accuracy by 4.1% over the
full-cache baseline. These results demonstrate that exploiting GUI-specific
redundancies enables efficient and reliable agent performance.