Modélisation des récompenses basée sur la vidéo pour les agents d'utilisation informatique

Résumé

Les agents informatiques (CUA) deviennent de plus en plus performants ; cependant, il reste difficile d'évaluer de manière scalable si une trajectoire satisfait véritablement une instruction utilisateur. Dans ce travail, nous étudions la modélisation de la récompense à partir de vidéos d'exécution : une séquence d'images clés d'une trajectoire d'agent qui est indépendante du raisonnement interne ou des actions de l'agent. Bien que la modélisation par vidéo d'exécution soit agnostique aux méthodes, elle présente des défis majeurs, notamment des dispositions hautement redondantes et des indices subtils et localisés qui déterminent le succès. Nous présentons Execution Video Reward 53k (ExeVR-53k), un jeu de données de 53 000 triplets vidéo–tâche–récompense de haute qualité. Nous proposons en outre la traduction d'instructions adversariales pour synthétiser des échantillons négatifs avec des annotations au niveau des étapes. Pour permettre l'apprentissage à partir de vidéos d'exécution longues et en haute résolution, nous concevons un élagage de tokens spatio-temporels, qui supprime les régions homogènes et les tokens persistants tout en préservant les changements décisifs de l'interface utilisateur. En nous appuyant sur ces composants, nous affinons un modèle de récompense par vidéo d'exécution (ExeVRM) qui ne prend qu'une instruction utilisateur et une séquence vidéo d'exécution pour prédire le succès de la tâche. Notre ExeVRM 8B atteint une précision de 84,7 % et un rappel de 87,7 % sur l'évaluation par vidéo d'exécution, surpassant des modèles propriétaires solides tels que GPT-5.2 et Gemini-3 Pro sur Ubuntu, macOS, Windows et Android, tout en fournissant une attribution temporelle plus précise. Ces résultats montrent que la modélisation de la récompense par vidéo d'exécution peut servir d'évaluateur scalable et agnostique aux modèles pour les CUA.

English

Computer-using agents (CUAs) are becoming increasingly capable; however, it remains difficult to scale evaluation of whether a trajectory truly fulfills a user instruction. In this work, we study reward modeling from execution video: a sequence of keyframes from an agent trajectory that is independent of the agent's internal reasoning or actions. Although video-execution modeling is method-agnostic, it presents key challenges, including highly redundant layouts and subtle, localized cues that determine success. We introduce Execution Video Reward 53k (ExeVR-53k), a dataset of 53k high-quality video--task--reward triplets. We further propose adversarial instruction translation to synthesize negative samples with step-level annotations. To enable learning from long, high-resolution execution videos, we design spatiotemporal token pruning, which removes homogeneous regions and persistent tokens while preserving decisive UI changes. Building on these components, we fine-tune an Execution Video Reward Model (ExeVRM) that takes only a user instruction and a video-execution sequence to predict task success. Our ExeVRM 8B achieves 84.7% accuracy and 87.7% recall on video-execution assessment, outperforming strong proprietary models such as GPT-5.2 and Gemini-3 Pro across Ubuntu, macOS, Windows, and Android, while providing more precise temporal attribution. These results show that video-execution reward modeling can serve as a scalable, model-agnostic evaluator for CUAs.

Modélisation des récompenses basée sur la vidéo pour les agents d'utilisation informatique

Video-Based Reward Modeling for Computer-Use Agents

Résumé

Support