Modelado de Recompensas Basado en Video para Agentes de Uso Informático

Resumen

Los agentes que utilizan computadoras (CUA) son cada vez más capaces; sin embargo, sigue siendo difícil escalar la evaluación de si una trayectoria cumple verdaderamente una instrucción del usuario. En este trabajo, estudiamos el modelado de recompensas a partir de video de ejecución: una secuencia de fotogramas clave de una trayectoria de un agente que es independiente del razonamiento o las acciones internas del agente. Aunque el modelado de ejecución por video es independiente del método, presenta desafíos clave, incluidos diseños altamente redundantes y señales sutiles y localizadas que determinan el éxito. Presentamos Execution Video Reward 53k (ExeVR-53k), un conjunto de datos de 53k tripletas de alta calidad de video-tarea-recompensa. Además, proponemos la traducción de instrucciones adversaria para sintetizar muestras negativas con anotaciones a nivel de paso. Para permitir el aprendizaje a partir de videos de ejecución largos y de alta resolución, diseñamos una poda de tokens espaciotemporales, que elimina regiones homogéneas y tokens persistentes mientras preserva los cambios decisivos en la interfaz de usuario (UI). Sobre estos componentes, ajustamos un Modelo de Recompensa de Video de Ejecución (ExeVRM) que toma solo una instrucción de usuario y una secuencia de video-ejecución para predecir el éxito de la tarea. Nuestro ExeVRM 8B logra un 84.7% de precisión y un 87.7% de recuperación en la evaluación de video-ejecución, superando a modelos propietarios sólidos como GPT-5.2 y Gemini-3 Pro en Ubuntu, macOS, Windows y Android, al tiempo que proporciona una atribución temporal más precisa. Estos resultados muestran que el modelado de recompensas por video-ejecución puede servir como un evaluador escalable e independiente del modelo para los CUAs.

English

Computer-using agents (CUAs) are becoming increasingly capable; however, it remains difficult to scale evaluation of whether a trajectory truly fulfills a user instruction. In this work, we study reward modeling from execution video: a sequence of keyframes from an agent trajectory that is independent of the agent's internal reasoning or actions. Although video-execution modeling is method-agnostic, it presents key challenges, including highly redundant layouts and subtle, localized cues that determine success. We introduce Execution Video Reward 53k (ExeVR-53k), a dataset of 53k high-quality video--task--reward triplets. We further propose adversarial instruction translation to synthesize negative samples with step-level annotations. To enable learning from long, high-resolution execution videos, we design spatiotemporal token pruning, which removes homogeneous regions and persistent tokens while preserving decisive UI changes. Building on these components, we fine-tune an Execution Video Reward Model (ExeVRM) that takes only a user instruction and a video-execution sequence to predict task success. Our ExeVRM 8B achieves 84.7% accuracy and 87.7% recall on video-execution assessment, outperforming strong proprietary models such as GPT-5.2 and Gemini-3 Pro across Ubuntu, macOS, Windows, and Android, while providing more precise temporal attribution. These results show that video-execution reward modeling can serve as a scalable, model-agnostic evaluator for CUAs.

Modelado de Recompensas Basado en Video para Agentes de Uso Informático

Video-Based Reward Modeling for Computer-Use Agents

Resumen

Support