Modellazione delle Ricompense Basata su Video per Agenti di Utilizzo del Computer

Abstract

Gli agenti che utilizzano computer (CUA) stanno diventando sempre più capaci; tuttavia, rimane difficile scalare la valutazione del fatto che una traiettoria soddisfi veramente un'istruzione dell'utente. In questo lavoro, studiamo la modellazione della ricompensa a partire da video di esecuzione: una sequenza di fotogrammi chiave di una traiettoria agente che è indipendente dal ragionamento interno o dalle azioni dell'agente. Sebbene la modellazione dell'esecuzione video sia indipendente dal metodo, presenta sfide chiave, tra cui layout altamente ridondanti e segnali sottili e localizzati che determinano il successo. Introduciamo Execution Video Reward 53k (ExeVR-53k), un dataset di 53k triplette video–compito–ricompensa di alta qualità. Proponiamo inoltre la traduzione avversaria delle istruzioni per sintetizzare campioni negativi con annotazioni a livello di step. Per consentire l'apprendimento da video di esecuzione lunghi e ad alta risoluzione, progettiamo una potatura spazio-temporale dei token, che rimuove regioni omogenee e token persistenti preservando al contempo i cambiamenti decisivi nell'interfaccia utente. Basandoci su questi componenti, ottimizziamo un Execution Video Reward Model (ExeVRM) che prende in input solo un'istruzione utente e una sequenza video di esecuzione per prevedere il successo del compito. Il nostro ExeVRM 8B raggiunge un'accuratezza dell'84,7% e un richiamo dell'87,7% nella valutazione dell'esecuzione video, superando modelli proprietari forti come GPT-5.2 e Gemini-3 Pro su Ubuntu, macOS, Windows e Android, fornendo al contempo un'attribuzione temporale più precisa. Questi risultati dimostrano che la modellazione della ricompensa basata sull'esecuzione video può fungere da valutatore scalabile e indipendente dal modello per i CUA.

English

Computer-using agents (CUAs) are becoming increasingly capable; however, it remains difficult to scale evaluation of whether a trajectory truly fulfills a user instruction. In this work, we study reward modeling from execution video: a sequence of keyframes from an agent trajectory that is independent of the agent's internal reasoning or actions. Although video-execution modeling is method-agnostic, it presents key challenges, including highly redundant layouts and subtle, localized cues that determine success. We introduce Execution Video Reward 53k (ExeVR-53k), a dataset of 53k high-quality video--task--reward triplets. We further propose adversarial instruction translation to synthesize negative samples with step-level annotations. To enable learning from long, high-resolution execution videos, we design spatiotemporal token pruning, which removes homogeneous regions and persistent tokens while preserving decisive UI changes. Building on these components, we fine-tune an Execution Video Reward Model (ExeVRM) that takes only a user instruction and a video-execution sequence to predict task success. Our ExeVRM 8B achieves 84.7% accuracy and 87.7% recall on video-execution assessment, outperforming strong proprietary models such as GPT-5.2 and Gemini-3 Pro across Ubuntu, macOS, Windows, and Android, while providing more precise temporal attribution. These results show that video-execution reward modeling can serve as a scalable, model-agnostic evaluator for CUAs.

Modellazione delle Ricompense Basata su Video per Agenti di Utilizzo del Computer

Video-Based Reward Modeling for Computer-Use Agents

Abstract

Support