ReVision : Passage à l’échelle des agents utilisant l’ordinateur via la réduction de la redondance visuelle temporelle

Résumé

Les agents d'utilisation d'ordinateur (CUAs) s'appuient sur des observations visuelles d'interfaces graphiques utilisateur, où chaque capture d'écran est encodée en un grand nombre de tokens visuels. À mesure que les trajectoires d'interaction s'allongent, le coût en tokens augmente rapidement, limitant la quantité d'historique pouvant être intégrée sous des contraintes de contexte et de budget de calcul fixes. Cela n'a entraîné aucune amélioration, ou une amélioration très limitée, des performances lors de l'utilisation de l'historique, contrairement à d'autres domaines. Nous remédions à cette inefficacité en introduisant ReVision, qui permet d'entraîner des modèles de langage multimodaux sur des trajectoires où les patches visuels redondants sont supprimés à l'aide d'un sélecteur de patches appris, lequel compare les représentations des patches entre captures d'écran consécutives tout en préservant la structure spatiale requise par le modèle. Sur trois benchmarks, OSWorld, WebTailBench et AgentNetBench, lors du traitement de trajectoires avec 5 captures d'écran historiques à l'aide de Qwen2.5-VL-7B, ReVision réduit l'utilisation de tokens de 46% en moyenne tout en améliorant le taux de réussite de 3% par rapport à la base de référence sans suppression. Cela établit un gain d'efficacité clair, permettant aux agents de traiter des trajectoires plus longues avec moins de tokens. Grâce à cette efficacité améliorée, nous réexaminons le rôle de l'historique dans les CUAs et constatons que les performances continuent de s'améliorer à mesure que davantage d'observations passées sont intégrées lorsque la redondance est supprimée.

English

Computer-use agents (CUAs) rely on visual observations of graphical user interfaces, where each screenshot is encoded into a large number of visual tokens. As interaction trajectories grow, the token cost increases rapidly, limiting the amount of history that can be incorporated under fixed context and compute budgets. This has resulted in no or very limited improvement in the performance when using history unlike other domains. We address this inefficiency by introducing ReVision, which is used to train multimodal language models on trajectories where redundant visual patches are removed using a learned patch selector that compares patch representations across consecutive screenshots while preserving spatial structure required by the model. Across three benchmarks, OSWorld, WebTailBench, and AgentNetBench, when processing trajectories with 5 history screenshots using Qwen2.5-VL-7B, ReVision reduces token usage by 46% on average while improving success rate by 3% over the no drop baseline. This establishes a clear efficiency gain, enabling agents to process longer trajectories with fewer tokens. With this improved efficiency, we revisit the role of history in CUAs and find that performance continues to improve as more past observations are incorporated when redundancy is removed.