CoVEBench : Les modèles de montage vidéo peuvent-ils gérer des instructions complexes ?

Résumé

Bien que les récents modèles d'édition vidéo guidés par du texte excellent dans des tâches élémentaires (par exemple, le transfert de style, l'insertion d'objets), les demandes des utilisateurs dans le monde réel sont hautement compositionnelles. Une seule instruction nécessite souvent plusieurs modifications couplées, telles que la modification des sujets, des actions et des angles de caméra, tout en préservant strictement le contenu spatiotemporel non concerné. Les benchmarks existants, fortement contraints par des modifications isolées et des métriques globales grossières, ne parviennent pas à diagnostiquer comment les modèles gèrent de tels flux de travail complexes. Pour combler cette lacune, nous présentons CoVEBench, un benchmark d'édition vidéo compositionnelle comprenant 416 vidéos sources soigneusement sélectionnées, 626 instructions d'édition multipoints et 9 990 éléments de checklist détaillés. Couvrant diverses dimensions d'édition, CoVEBench évalue les modèles via la conformité aux instructions jugée par MLLM et la fidélité vidéo, ainsi que des métriques automatisées pour la qualité vidéo. Des expériences approfondies révèlent que l'édition compositionnelle reste un défi majeur : les modèles actuels omettent fréquemment des modifications, violent les contraintes de préservation ou introduisent des artefacts lorsqu'ils traitent plusieurs opérations simultanément. CoVEBench fournit un banc d'essai diagnostique et exigeant pour faire progresser l'édition vidéo vers des flux de travail utilisateur réalistes.

English

While recent text-guided video editing models excel at elementary tasks (e.g., style transfer, object insertion), real-world user requests are highly compositional. A single prompt often demands multiple coupled edits, such as modifying subjects, actions, and camera views, while strictly preserving unrelated spatiotemporal content. Existing benchmarks, heavily constrained by isolated edits and coarse global metrics, fail to diagnose how models handle such complex workflows. To address this gap, we introduce CoVEBench, a compositional video editing benchmark comprising 416 curated source videos, 626 multi-point editing instructions, and 9,990 fine-grained checklist items. Covering diverse editing dimensions, CoVEBench evaluates models via MLLM-judged instruction compliance and video fidelity, alongside automated metrics for video quality. Extensive experiments reveal that compositional editing remains a profound challenge: current models frequently omit edits, violate preservation constraints, or introduce artifacts when handling multiple operations simultaneously. CoVEBench provides a challenging, diagnostic testbed to advance video editing toward realistic user workflows.