CutVerse: Un Benchmark de Agentes GUI Composicionales para Edición de Postproducción de Medios

Resumen

Si bien los agentes GUI han logrado avances significativos en la navegación web y tareas básicas del sistema operativo, sus capacidades en flujos de trabajo creativos profesionales siguen estando en gran medida inexploradas. Para cerrar esta brecha, presentamos Cutverse, un benchmark diseñado para evaluar sistemáticamente agentes GUI autónomos en entornos realistas de postproducción de medios. Seleccionamos demostraciones de expertos en 7 aplicaciones profesionales (por ejemplo, Premiere Pro, Photoshop), que cubren 186 tareas complejas y de largo horizonte basadas en flujos de trabajo de edición auténticos, que implican interfaces multimodales densas y secuencias de interacción estrechamente acopladas. Para apoyar una evaluación escalable, desarrollamos un analizador ligero que transforma grabaciones de pantalla en bruto y registros de interacción de bajo nivel en trayectorias de acción GUI estructuradas y composicionales con un fundamento preciso. Evaluaciones exhaustivas revelan que los agentes existentes logran solo un 36.0% de éxito en tareas de edición de medios realistas, lo que subraya los desafíos que plantean los flujos de trabajo complejos y de largo horizonte de postproducción de medios en nuestro benchmark. Si bien los modelos actuales demuestran un fundamento espacial prometedor, alineación multimodal y ejecución coordinada de acciones, siguen siendo limitados en confiabilidad a largo plazo y planificación específica del dominio.

English

While GUI agents have made significant progress in web navigation and basic operating system tasks, their capabilities in professional creative workflows remain largely underexplored. To bridge this gap, we introduce Cutverse, a benchmark designed to systematically evaluate autonomous GUI agents in realistic media post-production environments. We curate expert demonstrations across 7 professional applications (e.g., Premiere Pro, Photoshop), covering 186 complex, long-horizon tasks grounded in authentic editing workflows, involving dense multimodal interfaces and tightly coupled interaction sequences. To support scalable evaluation, we develop a lightweight parser that transforms raw screen recordings and low-level interaction logs into structured, compositional GUI action trajectories with precise grounding. Extensive evaluations reveal that existing agents achieve only 36.0\% task success on realistic media editing tasks, underscoring the challenges posed by complex, long-horizon media post-production workflows in our benchmark.While current models demonstrate promising spatial grounding, multimodal alignment, and coordinated action execution, they remain limited in long-horizon reliability and domain-specific planning.