CutVerse: Een compositionele GUI-agentenbenchmark voor mediapostproductiebewerking

Samenvatting

Hoewel GUI-agenten aanzienlijke vooruitgang hebben geboekt bij webnavigatie en basistaken in besturingssystemen, blijven hun mogelijkheden in professionele creatieve workflows grotendeels onderbelicht. Om deze kloof te overbruggen introduceren we Cutverse, een benchmark die is ontworpen om autonome GUI-agenten systematisch te evalueren in realistische media-postproductieomgevingen. We hebben expertdemonstraties samengesteld uit 7 professionele toepassingen (bijv. Premiere Pro, Photoshop), die 186 complexe, langdurige taken bestrijken, gebaseerd op authentieke montageworkflows, met dichte multimodale interfaces en sterk gekoppelde interactiesequenties. Ter ondersteuning van schaalbare evaluatie ontwikkelen we een lichtgewicht parser die ruwe schermopnamen en interactielogs op laag niveau omzet in gestructureerde, compositorische GUI-actietrajecten met precieze verankering. Uitgebreide evaluaties tonen aan dat bestaande agenten slechts 36,0% taaksucces behalen bij realistische media-bewerkingstaken, wat de uitdagingen onderstreept die complexe, langdurige media-postproductieworkflows in onze benchmark met zich meebrengen. Hoewel huidige modellen veelbelovende ruimtelijke verankering, multimodale afstemming en gecoördineerde actie-uitvoering vertonen, blijven ze beperkt in langdurige betrouwbaarheid en domeinspecifieke planning.

English

While GUI agents have made significant progress in web navigation and basic operating system tasks, their capabilities in professional creative workflows remain largely underexplored. To bridge this gap, we introduce Cutverse, a benchmark designed to systematically evaluate autonomous GUI agents in realistic media post-production environments. We curate expert demonstrations across 7 professional applications (e.g., Premiere Pro, Photoshop), covering 186 complex, long-horizon tasks grounded in authentic editing workflows, involving dense multimodal interfaces and tightly coupled interaction sequences. To support scalable evaluation, we develop a lightweight parser that transforms raw screen recordings and low-level interaction logs into structured, compositional GUI action trajectories with precise grounding. Extensive evaluations reveal that existing agents achieve only 36.0\% task success on realistic media editing tasks, underscoring the challenges posed by complex, long-horizon media post-production workflows in our benchmark.While current models demonstrate promising spatial grounding, multimodal alignment, and coordinated action execution, they remain limited in long-horizon reliability and domain-specific planning.