Video-basiertes Belohnungsmodellieren für Computer-Nutzungs-Agenten

Zusammenfassung

Computergestützte Agenten (CUAs) werden zunehmend leistungsfähiger; dennoch bleibt es schwierig, die Bewertung, ob eine Trajektorie eine Benutzeranweisung tatsächlich erfüllt, zu skalieren. In dieser Arbeit untersuchen wir Reward-Modellierung anhand von Ausführungsvideos: einer Sequenz von Keyframes aus einer Agenten-Trajektorie, die unabhängig von der internen Logik oder den Aktionen des Agenten ist. Obwohl die Videoausführungsmodellierung methodenagnostisch ist, birgt sie zentrale Herausforderungen, darunter hochredundante Layouts und subtile, lokalisierte Hinweise, die den Erfolg bestimmen. Wir stellen Execution Video Reward 53k (ExeVR-53k) vor, einen Datensatz mit 53.000 hochwertigen Video-Aufgabe-Belohnungs-Tripeln. Darüber hinaus schlagen wir adversarische Anweisungsübersetzung vor, um negative Beispiele mit schrittweisen Annotationen zu synthetisieren. Um das Lernen aus langen, hochauflösenden Ausführungsvideos zu ermöglichen, entwickeln wir eine raumzeitliche Token-Ausdünnung, die homogene Bereiche und persistente Tokens entfernt, während entscheidende UI-Änderungen erhalten bleiben. Aufbauend auf diesen Komponenten feintunen wir ein Execution Video Reward Model (ExeVRM), das nur eine Benutzeranweisung und eine Videoausführungssequenz benötigt, um den Aufgaben-Erfolg vorherzusagen. Unser ExeVRM 8B erreicht eine Genauigkeit von 84,7 % und eine Trefferquote von 87,7 % bei der Videoausführungsbewertung und übertrifft damit leistungsstarke proprietäre Modelle wie GPT-4o und Gemini-1.5 Pro unter Ubuntu, macOS, Windows und Android, bei gleichzeitig präziserer temporaler Attribution. Diese Ergebnisse zeigen, dass die Videoausführungs-Belohnungsmodellierung als skalierbarer, modellagnostischer Evaluator für CUAs dienen kann.

English

Computer-using agents (CUAs) are becoming increasingly capable; however, it remains difficult to scale evaluation of whether a trajectory truly fulfills a user instruction. In this work, we study reward modeling from execution video: a sequence of keyframes from an agent trajectory that is independent of the agent's internal reasoning or actions. Although video-execution modeling is method-agnostic, it presents key challenges, including highly redundant layouts and subtle, localized cues that determine success. We introduce Execution Video Reward 53k (ExeVR-53k), a dataset of 53k high-quality video--task--reward triplets. We further propose adversarial instruction translation to synthesize negative samples with step-level annotations. To enable learning from long, high-resolution execution videos, we design spatiotemporal token pruning, which removes homogeneous regions and persistent tokens while preserving decisive UI changes. Building on these components, we fine-tune an Execution Video Reward Model (ExeVRM) that takes only a user instruction and a video-execution sequence to predict task success. Our ExeVRM 8B achieves 84.7% accuracy and 87.7% recall on video-execution assessment, outperforming strong proprietary models such as GPT-5.2 and Gemini-3 Pro across Ubuntu, macOS, Windows, and Android, while providing more precise temporal attribution. These results show that video-execution reward modeling can serve as a scalable, model-agnostic evaluator for CUAs.

Video-basiertes Belohnungsmodellieren für Computer-Nutzungs-Agenten

Video-Based Reward Modeling for Computer-Use Agents

Zusammenfassung

Support