ReVision: Escalando Agentes de Uso de Computador via Redução de Redundância Visual Temporal

Resumo

Agentes de uso de computador (CUAs) dependem de observações visuais de interfaces gráficas de usuário, onde cada captura de tela é codificada em um grande número de tokens visuais. À medida que as trajetórias de interação crescem, o custo de tokens aumenta rapidamente, limitando a quantidade de histórico que pode ser incorporado sob orçamentos fixos de contexto e computação. Isso resultou em nenhuma ou melhoria muito limitada no desempenho ao utilizar histórico, diferentemente de outros domínios. Abordamos essa ineficiência introduzindo o ReVision, que é usado para treinar modelos multimodais de linguagem em trajetórias onde patches visuais redundantes são removidos utilizando um seletor de patches aprendido que compara representações de patches entre capturas de tela consecutivas, preservando a estrutura espacial exigida pelo modelo. Em três referências, OSWorld, WebTailBench e AgentNetBench, ao processar trajetórias com 5 capturas de tela de histórico usando Qwen2.5-VL-7B, o ReVision reduz o uso de tokens em 46% em média, enquanto melhora a taxa de sucesso em 3% em relação à linha de base sem descarte. Isso estabelece um claro ganho de eficiência, permitindo que agentes processem trajetórias mais longas com menos tokens. Com essa eficiência melhorada, revisitamos o papel do histórico em CUAs e descobrimos que o desempenho continua melhorando à medida que mais observações passadas são incorporadas quando a redundância é removida.

English

Computer-use agents (CUAs) rely on visual observations of graphical user interfaces, where each screenshot is encoded into a large number of visual tokens. As interaction trajectories grow, the token cost increases rapidly, limiting the amount of history that can be incorporated under fixed context and compute budgets. This has resulted in no or very limited improvement in the performance when using history unlike other domains. We address this inefficiency by introducing ReVision, which is used to train multimodal language models on trajectories where redundant visual patches are removed using a learned patch selector that compares patch representations across consecutive screenshots while preserving spatial structure required by the model. Across three benchmarks, OSWorld, WebTailBench, and AgentNetBench, when processing trajectories with 5 history screenshots using Qwen2.5-VL-7B, ReVision reduces token usage by 46% on average while improving success rate by 3% over the no drop baseline. This establishes a clear efficiency gain, enabling agents to process longer trajectories with fewer tokens. With this improved efficiency, we revisit the role of history in CUAs and find that performance continues to improve as more past observations are incorporated when redundancy is removed.