CutVerse: Композиционный бенчмарк GUI-агентов для постпродакшн редактирования медиа

Аннотация

Хотя агенты графического интерфейса пользователя (GUI-агенты) достигли значительного прогресса в навигации по веб-страницам и выполнении базовых задач операционных систем, их возможности в профессиональных творческих рабочих процессах остаются в значительной степени неизученными. Для устранения этого пробела мы представляем Cutverse — эталонный тест, предназначенный для систематической оценки автономных GUI-агентов в реалистичных средах постпроизводства медиаконтента. Мы собрали экспертные демонстрации по 7 профессиональным приложениям (например, Premiere Pro, Photoshop), охватывающие 186 сложных долгосрочных задач, основанных на аутентичных рабочих процессах редактирования, включающих плотные мультимодальные интерфейсы и тесно связанные последовательности взаимодействий. Для поддержки масштабируемой оценки мы разработали легковесный анализатор, который преобразует необработанные записи экрана и низкоуровневые журналы взаимодействий в структурированные, композиционные траектории действий GUI с точной привязкой. Обширные оценки показывают, что существующие агенты достигают лишь 36,0% успешности выполнения задач в реалистичных задачах редактирования медиа, что подчеркивает сложности, связанные с комплексными долгосрочными рабочими процессами постпроизводства в нашем эталонном тесте. Хотя современные модели демонстрируют многообещающее пространственное позиционирование, мультимодальное согласование и скоординированное выполнение действий, они остаются ограниченными в отношении долгосрочной надежности и предметно-ориентированного планирования.

English

While GUI agents have made significant progress in web navigation and basic operating system tasks, their capabilities in professional creative workflows remain largely underexplored. To bridge this gap, we introduce Cutverse, a benchmark designed to systematically evaluate autonomous GUI agents in realistic media post-production environments. We curate expert demonstrations across 7 professional applications (e.g., Premiere Pro, Photoshop), covering 186 complex, long-horizon tasks grounded in authentic editing workflows, involving dense multimodal interfaces and tightly coupled interaction sequences. To support scalable evaluation, we develop a lightweight parser that transforms raw screen recordings and low-level interaction logs into structured, compositional GUI action trajectories with precise grounding. Extensive evaluations reveal that existing agents achieve only 36.0\% task success on realistic media editing tasks, underscoring the challenges posed by complex, long-horizon media post-production workflows in our benchmark.While current models demonstrate promising spatial grounding, multimodal alignment, and coordinated action execution, they remain limited in long-horizon reliability and domain-specific planning.