ReVision: Het opschalen van computergebruikagenten via temporele visuele redundantiereductie

Samenvatting

Computergebruikagenten (CUAs) zijn afhankelijk van visuele waarnemingen van grafische gebruikersinterfaces, waarbij elke schermafbeelding wordt gecodeerd in een groot aantal visuele tokens. Naarmate interactietrajecten langer worden, stijgen de tokenkosten snel, waardoor de hoeveelheid geschiedenis die kan worden opgenomen onder vaste context- en rekenbudgetten beperkt wordt. Dit heeft geresulteerd in geen of zeer beperkte verbetering van de prestaties bij het gebruik van geschiedenis, in tegenstelling tot andere domeinen. We pakken deze inefficiëntie aan door ReVision te introduceren, waarmee multimodale taalmodellen worden getraind op trajecten waar overbodige visuele patches worden verwijderd met behulp van een geleerde patchselector die patchrepresentaties tussen opeenvolgende schermafbeeldingen vergelijkt, terwijl de ruimtelijke structuur die het model nodig heeft, behouden blijft. Op drie benchmarks, OSWorld, WebTailBench en AgentNetBench, vermindert ReVision bij het verwerken van trajecten met 5 historische schermafbeeldingen met Qwen2.5-VL-7B het tokenverbruik met gemiddeld 46%, terwijl het slagingspercentage met 3% verbetert ten opzichte van de baseline zonder weglating. Dit levert een duidelijke efficiëntiewinst op, waardoor agenten langere trajecten kunnen verwerken met minder tokens. Dankzij deze verbeterde efficiëntie bekijken we de rol van geschiedenis in CUAs opnieuw en stellen we vast dat de prestaties blijven verbeteren naarmate meer eerdere waarnemingen worden opgenomen wanneer redundantie wordt verwijderd.

English

Computer-use agents (CUAs) rely on visual observations of graphical user interfaces, where each screenshot is encoded into a large number of visual tokens. As interaction trajectories grow, the token cost increases rapidly, limiting the amount of history that can be incorporated under fixed context and compute budgets. This has resulted in no or very limited improvement in the performance when using history unlike other domains. We address this inefficiency by introducing ReVision, which is used to train multimodal language models on trajectories where redundant visual patches are removed using a learned patch selector that compares patch representations across consecutive screenshots while preserving spatial structure required by the model. Across three benchmarks, OSWorld, WebTailBench, and AgentNetBench, when processing trajectories with 5 history screenshots using Qwen2.5-VL-7B, ReVision reduces token usage by 46% on average while improving success rate by 3% over the no drop baseline. This establishes a clear efficiency gain, enabling agents to process longer trajectories with fewer tokens. With this improved efficiency, we revisit the role of history in CUAs and find that performance continues to improve as more past observations are incorporated when redundancy is removed.