Modelagem de Recompensa Baseada em Vídeo para Agentes de Uso de Computador

Resumo

Os agentes que utilizam computadores (CUAs) estão a tornar-se cada vez mais capazes; no entanto, continua a ser difícil dimensionar a avaliação de se uma trajetória cumpre verdadeiramente uma instrução do utilizador. Neste trabalho, estudamos a modelação de recompensa a partir de vídeo de execução: uma sequência de *keyframes* de uma trajetória de agente que é independente do raciocínio ou ações internas do agente. Embora a modelação de execução por vídeo seja agnóstica em relação ao método, apresenta desafios-chave, incluindo layouts altamente redundantes e pistas subtis e localizadas que determinam o sucesso. Apresentamos o Execution Video Reward 53k (ExeVR-53k), um conjunto de dados com 53 mil triplos de alta qualidade de vídeo-tarefa-recompensa. Propomos ainda a tradução de instruções adversariais para sintetizar amostras negativas com anotações ao nível da etapa. Para permitir a aprendizagem a partir de vídeos de execução longos e de alta resolução, concebemos a poda de *tokens* espaço-temporais, que remove regiões homogéneas e *tokens* persistentes, preservando as alterações decisivas na interface do utilizador (UI). Com base nestes componentes, afinamos um Modelo de Recompensa de Vídeo de Execução (ExeVRM) que recebe apenas uma instrução do utilizador e uma sequência de execução em vídeo para prever o sucesso da tarefa. O nosso ExeVRM 8B atinge 84,7% de precisão e 87,7% de recall na avaliação de execução por vídeo, superando modelos proprietários robustos como o GPT-5.2 e o Gemini-3 Pro em Ubuntu, macOS, Windows e Android, ao mesmo tempo que fornece uma atribuição temporal mais precisa. Estes resultados mostram que a modelação de recompensa por vídeo de execução pode servir como um avaliador escalável e agnóstico do modelo para CUAs.

English

Computer-using agents (CUAs) are becoming increasingly capable; however, it remains difficult to scale evaluation of whether a trajectory truly fulfills a user instruction. In this work, we study reward modeling from execution video: a sequence of keyframes from an agent trajectory that is independent of the agent's internal reasoning or actions. Although video-execution modeling is method-agnostic, it presents key challenges, including highly redundant layouts and subtle, localized cues that determine success. We introduce Execution Video Reward 53k (ExeVR-53k), a dataset of 53k high-quality video--task--reward triplets. We further propose adversarial instruction translation to synthesize negative samples with step-level annotations. To enable learning from long, high-resolution execution videos, we design spatiotemporal token pruning, which removes homogeneous regions and persistent tokens while preserving decisive UI changes. Building on these components, we fine-tune an Execution Video Reward Model (ExeVRM) that takes only a user instruction and a video-execution sequence to predict task success. Our ExeVRM 8B achieves 84.7% accuracy and 87.7% recall on video-execution assessment, outperforming strong proprietary models such as GPT-5.2 and Gemini-3 Pro across Ubuntu, macOS, Windows, and Android, while providing more precise temporal attribution. These results show that video-execution reward modeling can serve as a scalable, model-agnostic evaluator for CUAs.

Modelagem de Recompensa Baseada em Vídeo para Agentes de Uso de Computador

Video-Based Reward Modeling for Computer-Use Agents

Resumo

Support