GUI-KV: Agenti GUI Efficienti tramite Cache KV con Consapevolezza Spazio-Temporale

Abstract

Gli agenti di interfaccia grafica utente (GUI) basati su modelli visione-linguaggio sono emersi come un approccio promettente per automatizzare i flussi di lavoro uomo-computer. Tuttavia, affrontano anche la sfida dell'inefficienza, poiché elaborano lunghe sequenze di screenshot ad alta risoluzione e risolvono compiti a lungo termine, rendendo l'inferenza lenta, costosa e vincolata dalla memoria. Sebbene la memorizzazione nella cache chiave-valore (KV) possa mitigare questo problema, archiviare l'intera cache è proibitivo per contesti ricchi di immagini. I metodi esistenti di compressione della cache sono subottimali, poiché non tengono conto della ridondanza spaziale e temporale delle GUI. In questo lavoro, analizziamo prima i modelli di attenzione nei carichi di lavoro degli agenti GUI e scopriamo che, a differenza delle immagini naturali, la sparsità dell'attenzione è uniformemente elevata in tutti i livelli del trasformatore. Questa intuizione motiva una semplice strategia di allocazione uniforme del budget, che dimostriamo empiricamente superare schemi più complessi che variano per livello. Basandoci su questo, introduciamo GUI-KV, un metodo di compressione della cache KV plug-and-play per agenti GUI che non richiede riaddestramento. GUI-KV combina due tecniche innovative: (i) la guida della salienza spaziale, che potenzia i punteggi di attenzione con la norma L2 degli stati nascosti per preservare meglio i token visivi semanticamente importanti, e (ii) il punteggio della ridondanza temporale, che proietta le chiavi dei frame precedenti sul sottospazio delle chiavi del frame corrente per potare preferenzialmente la storia ridondante. Su benchmark e modelli standard di agenti GUI, GUI-KV supera le baseline competitive di compressione KV, avvicinandosi all'accuratezza della cache completa con budget modesti. In particolare, in un'impostazione a 5 screenshot sul benchmark AgentNetBench, GUI-KV riduce i FLOP di decodifica del 38,9% aumentando l'accuratezza del passo del 4,1% rispetto alla baseline della cache completa. Questi risultati dimostrano che sfruttare le ridondanze specifiche delle GUI consente prestazioni efficienti e affidabili degli agenti.

English

Graphical user interface (GUI) agents built on vision-language models have emerged as a promising approach to automate human-computer workflows. However, they also face the inefficiency challenge as they process long sequences of high-resolution screenshots and solving long-horizon tasks, making inference slow, costly and memory-bound. While key-value (KV) caching can mitigate this, storing the full cache is prohibitive for image-heavy contexts. Existing cache-compression methods are sub-optimal as they do not account for the spatial and temporal redundancy of GUIs. In this work, we first analyze attention patterns in GUI agent workloads and find that, unlike in natural images, attention sparsity is uniformly high across all transformer layers. This insight motivates a simple uniform budget allocation strategy, which we show empirically outperforms more complex layer-varying schemes. Building on this, we introduce GUI-KV, a plug-and-play KV cache compression method for GUI agents that requires no retraining. GUI-KV combines two novel techniques: (i) spatial saliency guidance, which augments attention scores with the L2 norm of hidden states to better preserve semantically important visual tokens, and (ii) temporal redundancy scoring, which projects previous frames' keys onto the current frame's key subspace to preferentially prune redundant history. Across standard GUI agent benchmarks and models, GUI-KV outperforms competitive KV compression baselines, closely matching full-cache accuracy at modest budgets. Notably, in a 5-screenshot setting on the AgentNetBench benchmark, GUI-KV reduces decoding FLOPs by 38.9% while increasing step accuracy by 4.1% over the full-cache baseline. These results demonstrate that exploiting GUI-specific redundancies enables efficient and reliable agent performance.

GUI-KV: Agenti GUI Efficienti tramite Cache KV con Consapevolezza Spazio-Temporale

GUI-KV: Efficient GUI Agents via KV Cache with Spatio-Temporal Awareness

Abstract

Support