Modellazione delle Ricompense Basata su Video per Agenti di Utilizzo del Computer
Video-Based Reward Modeling for Computer-Use Agents
March 10, 2026
Autori: Linxin Song, Jieyu Zhang, Huanxin Sheng, Taiwei Shi, Gupta Rahul, Yang Liu, Ranjay Krishna, Jian Kang, Jieyu Zhao
cs.AI
Abstract
Gli agenti che utilizzano computer (CUA) stanno diventando sempre più capaci; tuttavia, rimane difficile scalare la valutazione del fatto che una traiettoria soddisfi veramente un'istruzione dell'utente. In questo lavoro, studiamo la modellazione della ricompensa a partire da video di esecuzione: una sequenza di fotogrammi chiave di una traiettoria agente che è indipendente dal ragionamento interno o dalle azioni dell'agente. Sebbene la modellazione dell'esecuzione video sia indipendente dal metodo, presenta sfide chiave, tra cui layout altamente ridondanti e segnali sottili e localizzati che determinano il successo. Introduciamo Execution Video Reward 53k (ExeVR-53k), un dataset di 53k triplette video–compito–ricompensa di alta qualità. Proponiamo inoltre la traduzione avversaria delle istruzioni per sintetizzare campioni negativi con annotazioni a livello di step. Per consentire l'apprendimento da video di esecuzione lunghi e ad alta risoluzione, progettiamo una potatura spazio-temporale dei token, che rimuove regioni omogenee e token persistenti preservando al contempo i cambiamenti decisivi nell'interfaccia utente. Basandoci su questi componenti, ottimizziamo un Execution Video Reward Model (ExeVRM) che prende in input solo un'istruzione utente e una sequenza video di esecuzione per prevedere il successo del compito. Il nostro ExeVRM 8B raggiunge un'accuratezza dell'84,7% e un richiamo dell'87,7% nella valutazione dell'esecuzione video, superando modelli proprietari forti come GPT-5.2 e Gemini-3 Pro su Ubuntu, macOS, Windows e Android, fornendo al contempo un'attribuzione temporale più precisa. Questi risultati dimostrano che la modellazione della ricompensa basata sull'esecuzione video può fungere da valutatore scalabile e indipendente dal modello per i CUA.
English
Computer-using agents (CUAs) are becoming increasingly capable; however, it remains difficult to scale evaluation of whether a trajectory truly fulfills a user instruction. In this work, we study reward modeling from execution video: a sequence of keyframes from an agent trajectory that is independent of the agent's internal reasoning or actions. Although video-execution modeling is method-agnostic, it presents key challenges, including highly redundant layouts and subtle, localized cues that determine success. We introduce Execution Video Reward 53k (ExeVR-53k), a dataset of 53k high-quality video--task--reward triplets. We further propose adversarial instruction translation to synthesize negative samples with step-level annotations. To enable learning from long, high-resolution execution videos, we design spatiotemporal token pruning, which removes homogeneous regions and persistent tokens while preserving decisive UI changes. Building on these components, we fine-tune an Execution Video Reward Model (ExeVRM) that takes only a user instruction and a video-execution sequence to predict task success. Our ExeVRM 8B achieves 84.7% accuracy and 87.7% recall on video-execution assessment, outperforming strong proprietary models such as GPT-5.2 and Gemini-3 Pro across Ubuntu, macOS, Windows, and Android, while providing more precise temporal attribution. These results show that video-execution reward modeling can serve as a scalable, model-agnostic evaluator for CUAs.