CutVerse : Un benchmark d'agents GUI compositionnels pour le montage en post-production médiatique

Résumé

Bien que les agents d'interface graphique (GUI) aient réalisé des progrès significatifs dans la navigation sur le Web et l'exécution de tâches élémentaires sur les systèmes d'exploitation, leurs capacités dans les workflows créatifs professionnels restent largement sous-explorées. Pour combler cette lacune, nous présentons Cutverse, un benchmark conçu pour évaluer systématiquement les agents GUI autonomes dans des environnements réalistes de post-production médiatique. Nous rassemblons des démonstrations d'experts sur 7 applications professionnelles (par exemple, Premiere Pro, Photoshop), couvrant 186 tâches complexes et à long horizon ancrées dans des workflows de montage authentiques, impliquant des interfaces multimodales denses et des séquences d'interactions étroitement couplées. Pour soutenir une évaluation à grande échelle, nous développons un analyseur léger qui transforme les enregistrements d'écran bruts et les journaux d'interaction de bas niveau en trajectoires d'actions GUI structurées et compositionnelles, avec un ancrage précis. Des évaluations approfondies révèlent que les agents existants n'atteignent qu'un taux de succès de 36,0 % sur des tâches réalistes de montage média, soulignant les défis posés par les workflows complexes et à long horizon de la post-production médiatique dans notre benchmark. Bien que les modèles actuels démontrent un ancrage spatial prometteur, un alignement multimodal et une exécution coordonnée des actions, ils restent limités en termes de fiabilité à long horizon et de planification spécifique au domaine.

English

While GUI agents have made significant progress in web navigation and basic operating system tasks, their capabilities in professional creative workflows remain largely underexplored. To bridge this gap, we introduce Cutverse, a benchmark designed to systematically evaluate autonomous GUI agents in realistic media post-production environments. We curate expert demonstrations across 7 professional applications (e.g., Premiere Pro, Photoshop), covering 186 complex, long-horizon tasks grounded in authentic editing workflows, involving dense multimodal interfaces and tightly coupled interaction sequences. To support scalable evaluation, we develop a lightweight parser that transforms raw screen recordings and low-level interaction logs into structured, compositional GUI action trajectories with precise grounding. Extensive evaluations reveal that existing agents achieve only 36.0\% task success on realistic media editing tasks, underscoring the challenges posed by complex, long-horizon media post-production workflows in our benchmark.While current models demonstrate promising spatial grounding, multimodal alignment, and coordinated action execution, they remain limited in long-horizon reliability and domain-specific planning.