ReVision: Escalando Agentes de Uso de Computadoras mediante Reducción de Redundancia Visual Temporal

Resumen

Los agentes de uso de computadora (CUAs) dependen de observaciones visuales de interfaces gráficas de usuario, donde cada captura de pantalla se codifica en una gran cantidad de tokens visuales. A medida que las trayectorias de interacción se alargan, el costo de tokens aumenta rápidamente, limitando la cantidad de historial que puede incorporarse bajo presupuestos fijos de contexto y cómputo. Esto ha resultado en ninguna o muy limitada mejora en el rendimiento al utilizar historial, a diferencia de otros dominios. Abordamos esta ineficiencia introduciendo ReVision, que se utiliza para entrenar modelos de lenguaje multimodales en trayectorias donde se eliminan parches visuales redundantes mediante un selector de parches aprendido que compara representaciones de parches en capturas de pantalla consecutivas, preservando al mismo tiempo la estructura espacial requerida por el modelo. En tres puntos de referencia, OSWorld, WebTailBench y AgentNetBench, al procesar trayectorias con 5 capturas de pantalla de historial utilizando Qwen2.5-VL-7B, ReVision reduce el uso de tokens en un 46% en promedio, al tiempo que mejora la tasa de éxito en un 3% en comparación con la línea base sin eliminación. Esto establece una clara ganancia de eficiencia, permitiendo a los agentes procesar trayectorias más largas con menos tokens. Con esta eficiencia mejorada, reevaluamos el papel del historial en los CUAs y encontramos que el rendimiento continúa mejorando a medida que se incorporan más observaciones pasadas cuando se elimina la redundancia.

English

Computer-use agents (CUAs) rely on visual observations of graphical user interfaces, where each screenshot is encoded into a large number of visual tokens. As interaction trajectories grow, the token cost increases rapidly, limiting the amount of history that can be incorporated under fixed context and compute budgets. This has resulted in no or very limited improvement in the performance when using history unlike other domains. We address this inefficiency by introducing ReVision, which is used to train multimodal language models on trajectories where redundant visual patches are removed using a learned patch selector that compares patch representations across consecutive screenshots while preserving spatial structure required by the model. Across three benchmarks, OSWorld, WebTailBench, and AgentNetBench, when processing trajectories with 5 history screenshots using Qwen2.5-VL-7B, ReVision reduces token usage by 46% on average while improving success rate by 3% over the no drop baseline. This establishes a clear efficiency gain, enabling agents to process longer trajectories with fewer tokens. With this improved efficiency, we revisit the role of history in CUAs and find that performance continues to improve as more past observations are incorporated when redundancy is removed.