ReVision: Skalierung von Computernutzungsagenten durch temporale visuelle Redundanzreduktion

Zusammenfassung

Computer-Nutzungs-Agenten (CNAs) stützen sich auf visuelle Beobachtungen grafischer Benutzeroberflächen, wobei jeder Screenshot in eine große Anzahl visueller Token kodiert wird. Mit zunehmender Länge der Interaktionstrajektorien steigen die Token-Kosten rapide an, was die Menge an Historie begrenzt, die unter festen Kontext- und Rechenbudgets integriert werden kann. Dies hat dazu geführt, dass die Nutzung von Historie im Gegensatz zu anderen Domänen keine oder nur sehr begrenzte Leistungsverbesserungen bringt. Wir beheben diese Ineffizienz durch die Einführung von ReVision, das verwendet wird, um multimodale Sprachmodelle auf Trajektorien zu trainieren, bei denen redundante visuelle Patches mithilfe eines gelernten Patch-Selektors entfernt werden, der Patch-Repräsentationen über aufeinanderfolgende Screenshots hinweg vergleicht, während die vom Modell benötigte räumliche Struktur erhalten bleibt. Über drei Benchmarks hinweg – OSWorld, WebTailBench und AgentNetBench – reduziert ReVision bei der Verarbeitung von Trajektorien mit 5 Historie-Screenshots unter Verwendung von Qwen2.5-VL-7B die Token-Nutzung im Durchschnitt um 46 %, während die Erfolgsrate gegenüber der Baseline ohne Verwerfung um 3 % gesteigert wird. Dies stellt einen klaren Effizienzgewinn dar, der es Agenten ermöglicht, längere Trajektorien mit weniger Token zu verarbeiten. Mit dieser verbesserten Effizienz betrachten wir die Rolle der Historie in CNAs neu und stellen fest, dass die Leistung weiter steigt, wenn bei Entfernung von Redundanz mehr vergangene Beobachtungen einbezogen werden.

English

Computer-use agents (CUAs) rely on visual observations of graphical user interfaces, where each screenshot is encoded into a large number of visual tokens. As interaction trajectories grow, the token cost increases rapidly, limiting the amount of history that can be incorporated under fixed context and compute budgets. This has resulted in no or very limited improvement in the performance when using history unlike other domains. We address this inefficiency by introducing ReVision, which is used to train multimodal language models on trajectories where redundant visual patches are removed using a learned patch selector that compares patch representations across consecutive screenshots while preserving spatial structure required by the model. Across three benchmarks, OSWorld, WebTailBench, and AgentNetBench, when processing trajectories with 5 history screenshots using Qwen2.5-VL-7B, ReVision reduces token usage by 46% on average while improving success rate by 3% over the no drop baseline. This establishes a clear efficiency gain, enabling agents to process longer trajectories with fewer tokens. With this improved efficiency, we revisit the role of history in CUAs and find that performance continues to improve as more past observations are incorporated when redundancy is removed.