GUI-KV: Agentes de Interfaz Gráfica Eficientes mediante Caché KV con Conciencia Espacio-Temporal

Resumen

Los agentes de interfaz gráfica de usuario (GUI) basados en modelos de visión y lenguaje han surgido como un enfoque prometedor para automatizar flujos de trabajo entre humanos y computadoras. Sin embargo, también enfrentan el desafío de la ineficiencia al procesar secuencias largas de capturas de pantalla de alta resolución y resolver tareas de largo alcance, lo que hace que la inferencia sea lenta, costosa y limitada por la memoria. Aunque el almacenamiento en caché de clave-valor (KV) puede mitigar esto, almacenar la caché completa es prohibitivo en contextos con gran cantidad de imágenes. Los métodos existentes de compresión de caché son subóptimos, ya que no tienen en cuenta la redundancia espacial y temporal de las GUIs. En este trabajo, primero analizamos los patrones de atención en las cargas de trabajo de los agentes de GUI y encontramos que, a diferencia de las imágenes naturales, la dispersión de la atención es uniformemente alta en todas las capas del transformador. Esta idea motiva una estrategia simple de asignación uniforme de presupuesto, que demostramos empíricamente que supera esquemas más complejos que varían por capa. Basándonos en esto, presentamos GUI-KV, un método de compresión de caché KV plug-and-play para agentes de GUI que no requiere reentrenamiento. GUI-KV combina dos técnicas novedosas: (i) guía de prominencia espacial, que aumenta las puntuaciones de atención con la norma L2 de los estados ocultos para preservar mejor los tokens visuales semánticamente importantes, y (ii) puntuación de redundancia temporal, que proyecta las claves de los fotogramas anteriores en el subespacio de claves del fotograma actual para podar preferentemente la historia redundante. En los puntos de referencia estándar y modelos de agentes de GUI, GUI-KV supera a los métodos de compresión KV competitivos, igualando de cerca la precisión de la caché completa con presupuestos modestos. En particular, en una configuración de 5 capturas de pantalla en el punto de referencia AgentNetBench, GUI-KV reduce los FLOPs de decodificación en un 38.9% mientras aumenta la precisión por paso en un 4.1% sobre la línea base de caché completa. Estos resultados demuestran que explotar las redundancias específicas de las GUI permite un rendimiento eficiente y confiable de los agentes.

English

Graphical user interface (GUI) agents built on vision-language models have emerged as a promising approach to automate human-computer workflows. However, they also face the inefficiency challenge as they process long sequences of high-resolution screenshots and solving long-horizon tasks, making inference slow, costly and memory-bound. While key-value (KV) caching can mitigate this, storing the full cache is prohibitive for image-heavy contexts. Existing cache-compression methods are sub-optimal as they do not account for the spatial and temporal redundancy of GUIs. In this work, we first analyze attention patterns in GUI agent workloads and find that, unlike in natural images, attention sparsity is uniformly high across all transformer layers. This insight motivates a simple uniform budget allocation strategy, which we show empirically outperforms more complex layer-varying schemes. Building on this, we introduce GUI-KV, a plug-and-play KV cache compression method for GUI agents that requires no retraining. GUI-KV combines two novel techniques: (i) spatial saliency guidance, which augments attention scores with the L2 norm of hidden states to better preserve semantically important visual tokens, and (ii) temporal redundancy scoring, which projects previous frames' keys onto the current frame's key subspace to preferentially prune redundant history. Across standard GUI agent benchmarks and models, GUI-KV outperforms competitive KV compression baselines, closely matching full-cache accuracy at modest budgets. Notably, in a 5-screenshot setting on the AgentNetBench benchmark, GUI-KV reduces decoding FLOPs by 38.9% while increasing step accuracy by 4.1% over the full-cache baseline. These results demonstrate that exploiting GUI-specific redundancies enables efficient and reliable agent performance.

GUI-KV: Agentes de Interfaz Gráfica Eficientes mediante Caché KV con Conciencia Espacio-Temporal

GUI-KV: Efficient GUI Agents via KV Cache with Spatio-Temporal Awareness

Resumen

Support