GUI-KV: Effiziente GUI-Agenten durch KV-Cache mit raumzeitlichem Bewusstsein

papers.abstract

Grafische Benutzeroberflächen (GUI)-Agenten, die auf Vision-Sprache-Modellen basieren, haben sich als vielversprechender Ansatz zur Automatisierung von Mensch-Computer-Arbeitsabläufen erwiesen. Allerdings stehen sie auch vor der Herausforderung der Ineffizienz, da sie lange Sequenzen von hochauflösenden Screenshots verarbeiten und langfristige Aufgaben lösen müssen, was die Inferenz langsam, kostspielig und speicherintensiv macht. Während Key-Value (KV)-Caching dies mildern kann, ist die Speicherung des vollständigen Caches in bildlastigen Kontexten unpraktikabel. Bestehende Cache-Kompressionsmethoden sind suboptimal, da sie die räumliche und zeitliche Redundanz von GUIs nicht berücksichtigen. In dieser Arbeit analysieren wir zunächst Aufmerksamkeitsmuster in GUI-Agenten-Workloads und stellen fest, dass die Aufmerksamkeitssparsität im Gegensatz zu natürlichen Bildern über alle Transformer-Schichten hinweg gleichmäßig hoch ist. Diese Erkenntnis motiviert eine einfache Strategie zur gleichmäßigen Budgetzuweisung, die empirisch komplexere, schichtvariierende Schemata übertrifft. Darauf aufbauend stellen wir GUI-KV vor, eine Plug-and-Play-KV-Cache-Kompressionsmethode für GUI-Agenten, die kein erneutes Training erfordert. GUI-KV kombiniert zwei neuartige Techniken: (i) räumliche Salienzführung, die Aufmerksamkeitswerte mit der L2-Norm der verborgenen Zustände anreichert, um semantisch wichtige visuelle Tokens besser zu erhalten, und (ii) zeitliche Redundanzbewertung, die Schlüssel vorheriger Frames auf den Schlüssel-Unterraum des aktuellen Frames projiziert, um redundante Historie bevorzugt zu entfernen. Über standardisierte GUI-Agenten-Benchmarks und Modelle hinweg übertrifft GUI-KV konkurrierende KV-Kompressions-Baselines und erreicht nahezu die Genauigkeit des vollständigen Caches bei moderaten Budgets. Insbesondere reduziert GUI-KV in einer 5-Screenshot-Einstellung auf dem AgentNetBench-Benchmark die Decodierungs-FLOPs um 38,9 %, während die Schrittgenauigkeit um 4,1 % gegenüber der Baseline mit vollständigem Cache steigt. Diese Ergebnisse zeigen, dass die Nutzung GUI-spezifischer Redundanzen eine effiziente und zuverlässige Agentenleistung ermöglicht.

English

Graphical user interface (GUI) agents built on vision-language models have emerged as a promising approach to automate human-computer workflows. However, they also face the inefficiency challenge as they process long sequences of high-resolution screenshots and solving long-horizon tasks, making inference slow, costly and memory-bound. While key-value (KV) caching can mitigate this, storing the full cache is prohibitive for image-heavy contexts. Existing cache-compression methods are sub-optimal as they do not account for the spatial and temporal redundancy of GUIs. In this work, we first analyze attention patterns in GUI agent workloads and find that, unlike in natural images, attention sparsity is uniformly high across all transformer layers. This insight motivates a simple uniform budget allocation strategy, which we show empirically outperforms more complex layer-varying schemes. Building on this, we introduce GUI-KV, a plug-and-play KV cache compression method for GUI agents that requires no retraining. GUI-KV combines two novel techniques: (i) spatial saliency guidance, which augments attention scores with the L2 norm of hidden states to better preserve semantically important visual tokens, and (ii) temporal redundancy scoring, which projects previous frames' keys onto the current frame's key subspace to preferentially prune redundant history. Across standard GUI agent benchmarks and models, GUI-KV outperforms competitive KV compression baselines, closely matching full-cache accuracy at modest budgets. Notably, in a 5-screenshot setting on the AgentNetBench benchmark, GUI-KV reduces decoding FLOPs by 38.9% while increasing step accuracy by 4.1% over the full-cache baseline. These results demonstrate that exploiting GUI-specific redundancies enables efficient and reliable agent performance.

GUI-KV: Effiziente GUI-Agenten durch KV-Cache mit raumzeitlichem Bewusstsein

GUI-KV: Efficient GUI Agents via KV Cache with Spatio-Temporal Awareness

papers.abstract

Support