GUI-KV: Эффективные агенты графического интерфейса через кэш KV с пространственно-временной осведомленностью

Аннотация

Агенты с графическим пользовательским интерфейсом (GUI), построенные на моделях обработки изображений и текста, стали перспективным подходом для автоматизации рабочих процессов взаимодействия человека и компьютера. Однако они также сталкиваются с проблемой неэффективности, поскольку обрабатывают длинные последовательности скриншотов высокого разрешения и решают задачи с длительным горизонтом, что делает вывод медленным, затратным и ограниченным по памяти. Хотя кэширование ключей и значений (KV) может смягчить эту проблему, хранение полного кэша становится непозволительно дорогим в контекстах, насыщенных изображениями. Существующие методы сжатия кэша неоптимальны, так как не учитывают пространственную и временную избыточность GUI. В данной работе мы сначала анализируем паттерны внимания в задачах GUI-агентов и обнаруживаем, что, в отличие от естественных изображений, разреженность внимания равномерно высока на всех слоях трансформера. Это наблюдение мотивирует простую стратегию равномерного распределения бюджета, которая, как мы показываем эмпирически, превосходит более сложные схемы с изменяющимся распределением по слоям. На основе этого мы представляем GUI-KV, метод сжатия KV-кэша для GUI-агентов, который не требует переобучения и работает по принципу "подключи и работай". GUI-KV сочетает две новые техники: (i) пространственное выделение значимых областей, которое дополняет оценки внимания нормой L2 скрытых состояний для лучшего сохранения семантически важных визуальных токенов, и (ii) оценку временной избыточности, которая проецирует ключи предыдущих кадров на подпространство ключей текущего кадра, чтобы предпочтительно удалять избыточную историю. На стандартных бенчмарках и моделях GUI-агентов GUI-KV превосходит конкурирующие методы сжатия KV-кэша, близко приближаясь к точности полного кэша при умеренных бюджетах. В частности, в настройке с 5 скриншотами на бенчмарке AgentNetBench GUI-KV сокращает количество операций с плавающей запятой при декодировании на 38,9%, одновременно увеличивая точность шага на 4,1% по сравнению с базовым методом с полным кэшем. Эти результаты демонстрируют, что использование специфической для GUI избыточности позволяет достичь эффективной и надежной работы агентов.

English

Graphical user interface (GUI) agents built on vision-language models have emerged as a promising approach to automate human-computer workflows. However, they also face the inefficiency challenge as they process long sequences of high-resolution screenshots and solving long-horizon tasks, making inference slow, costly and memory-bound. While key-value (KV) caching can mitigate this, storing the full cache is prohibitive for image-heavy contexts. Existing cache-compression methods are sub-optimal as they do not account for the spatial and temporal redundancy of GUIs. In this work, we first analyze attention patterns in GUI agent workloads and find that, unlike in natural images, attention sparsity is uniformly high across all transformer layers. This insight motivates a simple uniform budget allocation strategy, which we show empirically outperforms more complex layer-varying schemes. Building on this, we introduce GUI-KV, a plug-and-play KV cache compression method for GUI agents that requires no retraining. GUI-KV combines two novel techniques: (i) spatial saliency guidance, which augments attention scores with the L2 norm of hidden states to better preserve semantically important visual tokens, and (ii) temporal redundancy scoring, which projects previous frames' keys onto the current frame's key subspace to preferentially prune redundant history. Across standard GUI agent benchmarks and models, GUI-KV outperforms competitive KV compression baselines, closely matching full-cache accuracy at modest budgets. Notably, in a 5-screenshot setting on the AgentNetBench benchmark, GUI-KV reduces decoding FLOPs by 38.9% while increasing step accuracy by 4.1% over the full-cache baseline. These results demonstrate that exploiting GUI-specific redundancies enables efficient and reliable agent performance.

GUI-KV: Эффективные агенты графического интерфейса через кэш KV с пространственно-временной осведомленностью

GUI-KV: Efficient GUI Agents via KV Cache with Spatio-Temporal Awareness

Аннотация

Support