ChatPaper.aiChatPaper

ReVision: 時間的視覚冗長性削減によるコンピュータ操作エージェントのスケーリング

ReVision: Scaling Computer-Use Agents via Temporal Visual Redundancy Reduction

June 5, 2026
著者: Amirhossein Abaskohi, Yuhang He, Peter West, Giuseppe Carenini, Pranit Chawla, Vibhav Vineet
cs.AI

要旨

コンピュータ利用エージェント(CUA)は、グラフィカルユーザーインターフェースの視覚的な観測に依存しており、各スクリーンショットは多数の視覚トークンにエンコードされる。インタラクション軌跡が長くなるにつれてトークンコストが急激に増加し、固定されたコンテキストおよび計算予算の下で組み込める履歴量が制限される。このため、他の領域とは異なり、履歴を用いても性能向上がほとんど、あるいは全く見られなかった。この非効率性に対処するため、我々はReVisionを導入する。ReVisionは、学習されたパッチ選択器を用いて連続するスクリーンショット間でパッチ表現を比較し、モデルが必要とする空間構造を保持しながら冗長な視覚パッチを除去した軌跡上でマルチモーダル言語モデルを訓練する。3つのベンチマーク、OSWorld、WebTailBench、AgentNetBenchにおいて、Qwen2.5-VL-7Bを用いて5つの履歴スクリーンショットを処理する軌跡において、ReVisionはトークン使用量を平均46%削減しつつ、非削除ベースラインに対して成功率を3%向上させる。これにより明確な効率性の向上が確立され、エージェントはより少ないトークンでより長い軌跡を処理できるようになる。この改善された効率性をもとに、CUAにおける履歴の役割を再検討したところ、冗長性が除去された場合、過去の観測を組み込むほど性能が向上し続けることが明らかとなった。
English
Computer-use agents (CUAs) rely on visual observations of graphical user interfaces, where each screenshot is encoded into a large number of visual tokens. As interaction trajectories grow, the token cost increases rapidly, limiting the amount of history that can be incorporated under fixed context and compute budgets. This has resulted in no or very limited improvement in the performance when using history unlike other domains. We address this inefficiency by introducing ReVision, which is used to train multimodal language models on trajectories where redundant visual patches are removed using a learned patch selector that compares patch representations across consecutive screenshots while preserving spatial structure required by the model. Across three benchmarks, OSWorld, WebTailBench, and AgentNetBench, when processing trajectories with 5 history screenshots using Qwen2.5-VL-7B, ReVision reduces token usage by 46% on average while improving success rate by 3% over the no drop baseline. This establishes a clear efficiency gain, enabling agents to process longer trajectories with fewer tokens. With this improved efficiency, we revisit the role of history in CUAs and find that performance continues to improve as more past observations are incorporated when redundancy is removed.