Op videogebaseerd beloningsmodelleren voor computergebruik-agenten

Samenvatting

Computergestuurde agents (CGA's) worden steeds capabeler; toch blijft het lastig om de evaluatie van of een traject daadwerkelijk aan een gebruikersinstructie voldoet, op te schalen. In dit werk bestuderen we beloningsmodellering op basis van uitvoeringsvideo's: een reeks keyframes uit een agenttraject die onafhankelijk is van het interne redeneerproces of de acties van de agent. Hoewel video-uitvoeringsmodellering methodologie-onafhankelijk is, brengt het belangrijke uitdagingen met zich mee, zoals sterk redundante lay-outs en subtiele, gelokaliseerde signalen die het succes bepalen. Wij introduceren Execution Video Reward 53k (ExeVR-53k), een dataset met 53.000 hoogwaardige video-taak-beloning triplets. Verder stellen we *adversarial instruction translation* voor om negatieve samples met annotaties op stapniveau te synthetiseren. Om leren van lange, hoogwaardige uitvoeringsvideo's mogelijk te maken, ontwerpen we spatiotemporele tokenpruning, waarbij homogene regio's en persistente tokens worden verwijderd terwijl beslissende UI-veranderingen behouden blijven. Voortbouwend op deze componenten fine-tunen we een Execution Video Reward Model (ExeVRM) dat alleen een gebruikersinstructie en een video-uitvoeringssequentie nodig heeft om tasksucces te voorspellen. Ons ExeVRM 8B behaalt een nauwkeurigheid van 84,7% en een recall van 87,7% bij video-uitvoeringsbeoordeling, en presteert beter dan sterke propriëtaire modellen zoals GPT-5.2 en Gemini-3 Pro op Ubuntu, macOS, Windows en Android, terwijl het preciezere temporele attributie biedt. Deze resultaten tonen aan dat beloningsmodellering op basis van video-uitvoering kan dienen als een schaalbare, model-onafhankelijke evaluator voor CGA's.

English

Computer-using agents (CUAs) are becoming increasingly capable; however, it remains difficult to scale evaluation of whether a trajectory truly fulfills a user instruction. In this work, we study reward modeling from execution video: a sequence of keyframes from an agent trajectory that is independent of the agent's internal reasoning or actions. Although video-execution modeling is method-agnostic, it presents key challenges, including highly redundant layouts and subtle, localized cues that determine success. We introduce Execution Video Reward 53k (ExeVR-53k), a dataset of 53k high-quality video--task--reward triplets. We further propose adversarial instruction translation to synthesize negative samples with step-level annotations. To enable learning from long, high-resolution execution videos, we design spatiotemporal token pruning, which removes homogeneous regions and persistent tokens while preserving decisive UI changes. Building on these components, we fine-tune an Execution Video Reward Model (ExeVRM) that takes only a user instruction and a video-execution sequence to predict task success. Our ExeVRM 8B achieves 84.7% accuracy and 87.7% recall on video-execution assessment, outperforming strong proprietary models such as GPT-5.2 and Gemini-3 Pro across Ubuntu, macOS, Windows, and Android, while providing more precise temporal attribution. These results show that video-execution reward modeling can serve as a scalable, model-agnostic evaluator for CUAs.

Op videogebaseerd beloningsmodelleren voor computergebruik-agenten

Video-Based Reward Modeling for Computer-Use Agents

Samenvatting

Support