CoVEBench: Os Modelos de Edição de Vídeo Conseguem Lidar com Instruções Complexas?

Resumo

Embora modelos recentes de edição de vídeo guiada por texto se destaquem em tarefas elementares (por exemplo, transferência de estilo, inserção de objetos), as solicitações de usuários reais são altamente composicionais. Um único prompt frequentemente exige múltiplas edições acopladas, como modificar sujeitos, ações e ângulos de câmera, enquanto preserva rigorosamente o conteúdo espaço-temporal não relacionado. Os benchmarks existentes, fortemente limitados por edições isoladas e métricas globais grosseiras, falham em diagnosticar como os modelos lidam com fluxos de trabalho tão complexos. Para preencher essa lacuna, apresentamos o CoVEBench, um benchmark de edição de vídeo composicional que compreende 416 vídeos fonte selecionados, 626 instruções de edição multiponto e 9.990 itens de checklist detalhados. Abrangendo diversas dimensões de edição, o CoVEBench avalia modelos por meio da conformidade com instruções e fidelidade de vídeo julgadas por MLLM, juntamente com métricas automatizadas de qualidade de vídeo. Experimentos extensivos revelam que a edição composicional continua sendo um desafio profundo: os modelos atuais frequentemente omitem edições, violam restrições de preservação ou introduzem artefatos ao lidar com múltiplas operações simultaneamente. O CoVEBench fornece uma plataforma de teste desafiadora e diagnóstica para avançar a edição de vídeo em direção a fluxos de trabalho realistas de usuários.

English

While recent text-guided video editing models excel at elementary tasks (e.g., style transfer, object insertion), real-world user requests are highly compositional. A single prompt often demands multiple coupled edits, such as modifying subjects, actions, and camera views, while strictly preserving unrelated spatiotemporal content. Existing benchmarks, heavily constrained by isolated edits and coarse global metrics, fail to diagnose how models handle such complex workflows. To address this gap, we introduce CoVEBench, a compositional video editing benchmark comprising 416 curated source videos, 626 multi-point editing instructions, and 9,990 fine-grained checklist items. Covering diverse editing dimensions, CoVEBench evaluates models via MLLM-judged instruction compliance and video fidelity, alongside automated metrics for video quality. Extensive experiments reveal that compositional editing remains a profound challenge: current models frequently omit edits, violate preservation constraints, or introduce artifacts when handling multiple operations simultaneously. CoVEBench provides a challenging, diagnostic testbed to advance video editing toward realistic user workflows.