GUI-KV : Agents d'interface graphique efficaces via le cache KV avec conscience spatio-temporelle

papers.abstract

Les agents d'interface utilisateur graphique (GUI) basés sur des modèles vision-langage ont émergé comme une approche prometteuse pour automatiser les workflows homme-machine. Cependant, ils sont également confrontés au défi de l'inefficacité, car ils traitent de longues séquences de captures d'écran haute résolution et résolvent des tâches à long terme, rendant l'inférence lente, coûteuse et limitée par la mémoire. Bien que la mise en cache clé-valeur (KV) puisse atténuer ce problème, le stockage du cache complet est prohibitif dans des contextes riches en images. Les méthodes existantes de compression de cache sont sous-optimales car elles ne tiennent pas compte de la redondance spatiale et temporelle des GUIs. Dans ce travail, nous analysons d'abord les modèles d'attention dans les charges de travail des agents GUI et constatons que, contrairement aux images naturelles, la parcimonie d'attention est uniformément élevée dans toutes les couches du transformateur. Cette observation motive une stratégie simple d'allocation de budget uniforme, qui surpasse empiriquement des schémas plus complexes variant selon les couches. Sur cette base, nous introduisons GUI-KV, une méthode de compression de cache KV plug-and-play pour les agents GUI qui ne nécessite aucun réentraînement. GUI-KV combine deux techniques novatrices : (i) le guidage par saillance spatiale, qui augmente les scores d'attention avec la norme L2 des états cachés pour mieux préserver les tokens visuels sémantiquement importants, et (ii) le scoring de redondance temporelle, qui projette les clés des images précédentes sur le sous-espace des clés de l'image actuelle pour élaguer de manière préférentielle l'historique redondant. Sur les benchmarks standard d'agents GUI et les modèles, GUI-KV surpasse les baselines concurrentes de compression KV, correspondant étroitement à la précision du cache complet avec des budgets modestes. Notamment, dans un cadre de 5 captures d'écran sur le benchmark AgentNetBench, GUI-KV réduit les FLOPs de décodage de 38,9 % tout en augmentant la précision des étapes de 4,1 % par rapport à la baseline du cache complet. Ces résultats démontrent que l'exploitation des redondances spécifiques aux GUIs permet une performance d'agent efficace et fiable.

English

Graphical user interface (GUI) agents built on vision-language models have emerged as a promising approach to automate human-computer workflows. However, they also face the inefficiency challenge as they process long sequences of high-resolution screenshots and solving long-horizon tasks, making inference slow, costly and memory-bound. While key-value (KV) caching can mitigate this, storing the full cache is prohibitive for image-heavy contexts. Existing cache-compression methods are sub-optimal as they do not account for the spatial and temporal redundancy of GUIs. In this work, we first analyze attention patterns in GUI agent workloads and find that, unlike in natural images, attention sparsity is uniformly high across all transformer layers. This insight motivates a simple uniform budget allocation strategy, which we show empirically outperforms more complex layer-varying schemes. Building on this, we introduce GUI-KV, a plug-and-play KV cache compression method for GUI agents that requires no retraining. GUI-KV combines two novel techniques: (i) spatial saliency guidance, which augments attention scores with the L2 norm of hidden states to better preserve semantically important visual tokens, and (ii) temporal redundancy scoring, which projects previous frames' keys onto the current frame's key subspace to preferentially prune redundant history. Across standard GUI agent benchmarks and models, GUI-KV outperforms competitive KV compression baselines, closely matching full-cache accuracy at modest budgets. Notably, in a 5-screenshot setting on the AgentNetBench benchmark, GUI-KV reduces decoding FLOPs by 38.9% while increasing step accuracy by 4.1% over the full-cache baseline. These results demonstrate that exploiting GUI-specific redundancies enables efficient and reliable agent performance.

GUI-KV : Agents d'interface graphique efficaces via le cache KV avec conscience spatio-temporelle

GUI-KV: Efficient GUI Agents via KV Cache with Spatio-Temporal Awareness

papers.abstract

Support