ReVision: Масштабирование компьютерных агентов за счет снижения временной визуальной избыточности

Аннотация

Агенты, использующие компьютер (CUA), полагаются на визуальные наблюдения графических пользовательских интерфейсов, где каждый снимок экрана кодируется в большое количество визуальных токенов. По мере увеличения траекторий взаимодействия затраты на токены быстро растут, ограничивая объем истории, который может быть включен при фиксированном контексте и вычислительных бюджетах. В отличие от других областей, это привело к отсутствию или очень ограниченному улучшению производительности при использовании истории. Мы решаем эту проблему неэффективности, внедряя ReVision, который используется для обучения мультимодальных языковых моделей на траекториях, где избыточные визуальные патчи удаляются с помощью обученного селектора патчей, сравнивающего представления патчей на последовательных снимках экрана, сохраняя при этом пространственную структуру, необходимую модели. На трех бенчмарках — OSWorld, WebTailBench и AgentNetBench — при обработке траекторий с 5 историческими снимками экрана с использованием Qwen2.5-VL-7B, ReVision сокращает использование токенов в среднем на 46%, одновременно повышая успешность на 3% по сравнению с базовым уровнем без удаления. Это обеспечивает четкое повышение эффективности, позволяя агентам обрабатывать более длинные траектории с меньшим количеством токенов. Благодаря этой повышенной эффективности мы пересматриваем роль истории в CUA и обнаруживаем, что производительность продолжает улучшаться по мере включения большего количества прошлых наблюдений при удалении избыточности.

English

Computer-use agents (CUAs) rely on visual observations of graphical user interfaces, where each screenshot is encoded into a large number of visual tokens. As interaction trajectories grow, the token cost increases rapidly, limiting the amount of history that can be incorporated under fixed context and compute budgets. This has resulted in no or very limited improvement in the performance when using history unlike other domains. We address this inefficiency by introducing ReVision, which is used to train multimodal language models on trajectories where redundant visual patches are removed using a learned patch selector that compares patch representations across consecutive screenshots while preserving spatial structure required by the model. Across three benchmarks, OSWorld, WebTailBench, and AgentNetBench, when processing trajectories with 5 history screenshots using Qwen2.5-VL-7B, ReVision reduces token usage by 46% on average while improving success rate by 3% over the no drop baseline. This establishes a clear efficiency gain, enabling agents to process longer trajectories with fewer tokens. With this improved efficiency, we revisit the role of history in CUAs and find that performance continues to improve as more past observations are incorporated when redundancy is removed.