CutVerse: Um Benchmark de Agentes de GUI Composicionais para Edição de Pós-Produção de Mídia

Resumo

Embora os agentes de GUI tenham feito progressos significativos na navegação web e em tarefas básicas de sistemas operacionais, suas capacidades em fluxos de trabalho criativos profissionais permanecem em grande parte inexploradas. Para preencher essa lacuna, apresentamos o Cutverse, um benchmark projetado para avaliar sistematicamente agentes autônomos de GUI em ambientes realistas de pós-produção de mídia. Curamos demonstrações de especialistas em 7 aplicações profissionais (ex.: Premiere Pro, Photoshop), abrangendo 186 tarefas complexas e de longo horizonte, baseadas em fluxos de trabalho autênticos de edição, envolvendo interfaces multimodais densas e sequências de interação fortemente acopladas. Para apoiar a avaliação escalável, desenvolvemos um parser leve que transforma gravações de tela brutas e logs de interação de baixo nível em trajetórias estruturadas e composicionais de ações de GUI com ancoragem precisa. Avaliações extensas revelam que os agentes existentes atingem apenas 36,0% de sucesso em tarefas realistas de edição de mídia, destacando os desafios impostos pelos fluxos de trabalho complexos e de longo horizonte de pós-produção de mídia em nosso benchmark. Embora os modelos atuais demonstrem ancoragem espacial promissora, alinhamento multimodal e execução coordenada de ações, eles ainda são limitados em confiabilidade de longo horizonte e planejamento específico de domínio.

English

While GUI agents have made significant progress in web navigation and basic operating system tasks, their capabilities in professional creative workflows remain largely underexplored. To bridge this gap, we introduce Cutverse, a benchmark designed to systematically evaluate autonomous GUI agents in realistic media post-production environments. We curate expert demonstrations across 7 professional applications (e.g., Premiere Pro, Photoshop), covering 186 complex, long-horizon tasks grounded in authentic editing workflows, involving dense multimodal interfaces and tightly coupled interaction sequences. To support scalable evaluation, we develop a lightweight parser that transforms raw screen recordings and low-level interaction logs into structured, compositional GUI action trajectories with precise grounding. Extensive evaluations reveal that existing agents achieve only 36.0\% task success on realistic media editing tasks, underscoring the challenges posed by complex, long-horizon media post-production workflows in our benchmark.While current models demonstrate promising spatial grounding, multimodal alignment, and coordinated action execution, they remain limited in long-horizon reliability and domain-specific planning.