Моделирование вознаграждения на основе видеоданных для агентов, взаимодействующих с компьютером

Аннотация

Агенты, использующие компьютеры (Computer-using agents, CUA), становятся все более способными, однако масштабирование оценки того, действительно ли траектория агента выполняет пользовательскую инструкцию, остается сложной задачей. В данной работе мы исследуем моделирование вознаграждения на основе видео выполнения — последовательности ключевых кадров из траектории агента, которая не зависит от его внутренних рассуждений или действий. Хотя моделирование по видео выполнения является метод-агностичным, оно представляет ключевые проблемы, включая высоко избыточные компоновки и тонкие, локализованные сигналы, определяющие успех. Мы представляем Execution Video Reward 53k (ExeVR-53k) — набор данных, содержащий 53 тыс. высококачественных троек «видео–задача–вознаграждение». Кроме того, мы предлагаем метод adversarial instruction translation для синтеза негативных примеров с аннотациями на уровне шагов. Чтобы обеспечить обучение на длинных видео выполнения высокого разрешения, мы разрабатываем пространственно-временное прореживание токенов, которое удаляет однородные области и устойчивые токены, сохраняя при этом решающие изменения пользовательского интерфейса. На основе этих компонентов мы дообучаем Модель Вознаграждения по Видео Выполнения (Execution Video Reward Model, ExeVRM), которая принимает только пользовательскую инструкцию и последовательность видео выполнения для прогнозирования успешности задачи. Наша модель ExeVRM 8B достигает точности 84,7% и полноты 87,7% при оценке видео выполнения, превосходя мощные проприетарные модели, такие как GPT-5.2 и Gemini-3 Pro, в средах Ubuntu, macOS, Windows и Android, а также обеспечивая более точную временную атрибуцию. Эти результаты демонстрируют, что моделирование вознаграждения по видео выполнения может служить масштабируемым, модельно-агностичным оценщиком для CUA.

English

Computer-using agents (CUAs) are becoming increasingly capable; however, it remains difficult to scale evaluation of whether a trajectory truly fulfills a user instruction. In this work, we study reward modeling from execution video: a sequence of keyframes from an agent trajectory that is independent of the agent's internal reasoning or actions. Although video-execution modeling is method-agnostic, it presents key challenges, including highly redundant layouts and subtle, localized cues that determine success. We introduce Execution Video Reward 53k (ExeVR-53k), a dataset of 53k high-quality video--task--reward triplets. We further propose adversarial instruction translation to synthesize negative samples with step-level annotations. To enable learning from long, high-resolution execution videos, we design spatiotemporal token pruning, which removes homogeneous regions and persistent tokens while preserving decisive UI changes. Building on these components, we fine-tune an Execution Video Reward Model (ExeVRM) that takes only a user instruction and a video-execution sequence to predict task success. Our ExeVRM 8B achieves 84.7% accuracy and 87.7% recall on video-execution assessment, outperforming strong proprietary models such as GPT-5.2 and Gemini-3 Pro across Ubuntu, macOS, Windows, and Android, while providing more precise temporal attribution. These results show that video-execution reward modeling can serve as a scalable, model-agnostic evaluator for CUAs.

Моделирование вознаграждения на основе видеоданных для агентов, взаимодействующих с компьютером

Video-Based Reward Modeling for Computer-Use Agents

Аннотация

Support