CoVEBench: Kunnen videobewerkingsmodellen complexe instructies verwerken?

Samenvatting

Hoewel recente tekstgestuurde videobewerkingsmodellen uitblinken in elementaire taken (bijv. stijloverdracht, objectinvoeging), zijn verzoeken van gebruikers in de praktijk sterk compositorisch. Een enkele prompt vereist vaak meerdere gekoppelde bewerkingen, zoals het wijzigen van onderwerpen, acties en camerastandpunten, terwijl niet-gerelateerde spatiotemporele inhoud strikt behouden blijft. Bestaande benchmarks, sterk beperkt door geïsoleerde bewerkingen en grove globale metrieken, slagen er niet in te diagnosticeren hoe modellen dergelijke complexe workflows aanpakken. Om deze leemte aan te pakken, introduceren we CoVEBench, een compositorische videobewerkingsbenchmark bestaande uit 416 samengestelde bronvideo's, 626 meerpuntsbewerkingsinstructies en 9.990 fijnmazige checklistitems. CoVEBench bestrijkt diverse bewerkingsdimensies en evalueert modellen via MLLM-beoordeelde instructienaleving en videotrouw, naast geautomatiseerde metrieken voor videokwaliteit. Uitgebreide experimenten tonen aan dat compositorische bewerking een grote uitdaging blijft: huidige modellen laten vaak bewerkingen weg, schenden behoudsbeperkingen of introduceren artefacten bij het gelijktijdig uitvoeren van meerdere bewerkingen. CoVEBench biedt een uitdagend, diagnostisch testbed om videobewerking richting realistische gebruikersworkflows te brengen.

English

While recent text-guided video editing models excel at elementary tasks (e.g., style transfer, object insertion), real-world user requests are highly compositional. A single prompt often demands multiple coupled edits, such as modifying subjects, actions, and camera views, while strictly preserving unrelated spatiotemporal content. Existing benchmarks, heavily constrained by isolated edits and coarse global metrics, fail to diagnose how models handle such complex workflows. To address this gap, we introduce CoVEBench, a compositional video editing benchmark comprising 416 curated source videos, 626 multi-point editing instructions, and 9,990 fine-grained checklist items. Covering diverse editing dimensions, CoVEBench evaluates models via MLLM-judged instruction compliance and video fidelity, alongside automated metrics for video quality. Extensive experiments reveal that compositional editing remains a profound challenge: current models frequently omit edits, violate preservation constraints, or introduce artifacts when handling multiple operations simultaneously. CoVEBench provides a challenging, diagnostic testbed to advance video editing toward realistic user workflows.