CutVerse: Ein kompositioneller Benchmark für GUI-Agenten zur Bearbeitung in der Medien-Postproduktion

Zusammenfassung

Während GUI-Agenten bedeutende Fortschritte bei der Websuche und grundlegenden Betriebssystemaufgaben erzielt haben, sind ihre Fähigkeiten in professionellen kreativen Arbeitsabläufen noch weitgehend unerforscht. Um diese Lücke zu schließen, stellen wir Cutverse vor, einen Benchmark, der entwickelt wurde, um autonome GUI-Agenten in realistischen Medien-Postproduktionsumgebungen systematisch zu evaluieren. Wir kuratieren Demonstrationen von Experten über 7 professionelle Anwendungen (z. B. Premiere Pro, Photoshop) hinweg, die 186 komplexe, langanhaltende Aufgaben umfassen, die in authentischen Bearbeitungsabläufen verwurzelt sind und dichte multimodale Schnittstellen sowie eng gekoppelte Interaktionssequenzen beinhalten. Um eine skalierbare Evaluierung zu unterstützen, entwickeln wir einen leichten Parser, der rohe Bildschirmaufnahmen und Interaktionsprotokolle auf niedriger Ebene in strukturierte, kompositionelle GUI-Aktionsverläufe mit präzisem Grounding umwandelt. Umfangreiche Evaluierungen zeigen, dass bestehende Agenten bei realistischen Medienbearbeitungsaufgaben nur eine Erfolgsquote von 36,0 % erreichen, was die Herausforderungen unterstreicht, die durch komplexe, langanhaltende Medien-Postproduktions-Workflows in unserem Benchmark entstehen. Während aktuelle Modelle vielversprechendes räumliches Grounding, multimodale Ausrichtung und koordinierte Aktionsausführung zeigen, bleiben sie in Bezug auf langfristige Zuverlässigkeit und domänenspezifische Planung eingeschränkt.

English

While GUI agents have made significant progress in web navigation and basic operating system tasks, their capabilities in professional creative workflows remain largely underexplored. To bridge this gap, we introduce Cutverse, a benchmark designed to systematically evaluate autonomous GUI agents in realistic media post-production environments. We curate expert demonstrations across 7 professional applications (e.g., Premiere Pro, Photoshop), covering 186 complex, long-horizon tasks grounded in authentic editing workflows, involving dense multimodal interfaces and tightly coupled interaction sequences. To support scalable evaluation, we develop a lightweight parser that transforms raw screen recordings and low-level interaction logs into structured, compositional GUI action trajectories with precise grounding. Extensive evaluations reveal that existing agents achieve only 36.0\% task success on realistic media editing tasks, underscoring the challenges posed by complex, long-horizon media post-production workflows in our benchmark.While current models demonstrate promising spatial grounding, multimodal alignment, and coordinated action execution, they remain limited in long-horizon reliability and domain-specific planning.