GUI-KV: Agentes de Interface Gráfica Eficientes via Cache KV com Consciência Espaço-Temporal
GUI-KV: Efficient GUI Agents via KV Cache with Spatio-Temporal Awareness
October 1, 2025
Autores: Kung-Hsiang Huang, Haoyi Qiu, Yutong Dai, Caiming Xiong, Chien-Sheng Wu
cs.AI
Resumo
Agentes de interface gráfica do usuário (GUI) construídos sobre modelos visão-linguagem surgiram como uma abordagem promissora para automatizar fluxos de trabalho humano-computador. No entanto, eles também enfrentam o desafio da ineficiência ao processar longas sequências de capturas de tela de alta resolução e resolver tarefas de longo horizonte, tornando a inferência lenta, custosa e limitada pela memória. Embora o cache de chave-valor (KV) possa mitigar isso, armazenar o cache completo é proibitivo para contextos ricos em imagens. Os métodos existentes de compressão de cache são subótimos, pois não levam em consideração a redundância espacial e temporal das GUIs. Neste trabalho, primeiro analisamos os padrões de atenção em cargas de trabalho de agentes GUI e descobrimos que, ao contrário das imagens naturais, a esparsidade de atenção é uniformemente alta em todas as camadas do transformador. Essa percepção motiva uma estratégia simples de alocação de orçamento uniforme, que mostramos empiricamente superar esquemas mais complexos de variação por camada. Com base nisso, introduzimos o GUI-KV, um método de compressão de cache KV plug-and-play para agentes GUI que não requer retreinamento. O GUI-KV combina duas técnicas novas: (i) orientação de saliência espacial, que aumenta as pontuações de atenção com a norma L2 dos estados ocultos para preservar melhor os tokens visuais semanticamente importantes, e (ii) pontuação de redundância temporal, que projeta as chaves dos quadros anteriores no subespaço de chaves do quadro atual para podar preferencialmente o histórico redundante. Em benchmarks e modelos padrão de agentes GUI, o GUI-KV supera as linhas de base competitivas de compressão KV, aproximando-se da precisão do cache completo em orçamentos modestos. Notavelmente, em uma configuração de 5 capturas de tela no benchmark AgentNetBench, o GUI-KV reduz os FLOPs de decodificação em 38,9% enquanto aumenta a precisão por etapa em 4,1% em relação à linha de base de cache completo. Esses resultados demonstram que explorar redundâncias específicas de GUI permite um desempenho eficiente e confiável dos agentes.
English
Graphical user interface (GUI) agents built on vision-language models have
emerged as a promising approach to automate human-computer workflows. However,
they also face the inefficiency challenge as they process long sequences of
high-resolution screenshots and solving long-horizon tasks, making inference
slow, costly and memory-bound. While key-value (KV) caching can mitigate this,
storing the full cache is prohibitive for image-heavy contexts. Existing
cache-compression methods are sub-optimal as they do not account for the
spatial and temporal redundancy of GUIs. In this work, we first analyze
attention patterns in GUI agent workloads and find that, unlike in natural
images, attention sparsity is uniformly high across all transformer layers.
This insight motivates a simple uniform budget allocation strategy, which we
show empirically outperforms more complex layer-varying schemes. Building on
this, we introduce GUI-KV, a plug-and-play KV cache compression method for GUI
agents that requires no retraining. GUI-KV combines two novel techniques: (i)
spatial saliency guidance, which augments attention scores with the L2 norm of
hidden states to better preserve semantically important visual tokens, and (ii)
temporal redundancy scoring, which projects previous frames' keys onto the
current frame's key subspace to preferentially prune redundant history. Across
standard GUI agent benchmarks and models, GUI-KV outperforms competitive KV
compression baselines, closely matching full-cache accuracy at modest budgets.
Notably, in a 5-screenshot setting on the AgentNetBench benchmark, GUI-KV
reduces decoding FLOPs by 38.9% while increasing step accuracy by 4.1% over the
full-cache baseline. These results demonstrate that exploiting GUI-specific
redundancies enables efficient and reliable agent performance.