CoVEBench: Können Videobearbeitungsmodelle komplexe Anweisungen verarbeiten?

Zusammenfassung

Während aktuelle textgesteuerte Video-Editing-Modelle bei elementaren Aufgaben (z. B. Stilübertragung, Objekteinfügung) gut abschneiden, sind reale Benutzeranfragen hochgradig kompositionell. Ein einzelner Prompt erfordert oft mehrere gekoppelte Bearbeitungen, wie etwa die Modifikation von Subjekten, Aktionen und Kameraperspektiven, während gleichzeitig unzusammenhängende raumzeitliche Inhalte streng erhalten bleiben müssen. Bestehende Benchmarks, die stark durch isolierte Bearbeitungen und grobe globale Metriken eingeschränkt sind, versagen bei der Diagnose, wie Modelle mit solch komplexen Arbeitsabläufen umgehen. Um diese Lücke zu schließen, stellen wir CoVEBench vor, einen kompositionellen Video-Editing-Benchmark, der 416 kuratierte Quellvideos, 626 Mehrpunkt-Bearbeitungsanweisungen und 9.990 feinkörnige Checklistenpunkte umfasst. CoVEBench deckt verschiedene Bearbeitungsdimensionen ab und bewertet Modelle mittels MLLM-bewerteter Anweisungserfüllung und Videotreue sowie automatisierter Metriken für die Videoqualität. Umfangreiche Experimente zeigen, dass kompositionelles Editing eine tiefgreifende Herausforderung bleibt: Aktuelle Modelle lassen häufig Bearbeitungen aus, verletzen Erhaltungsbedingungen oder führen Artefakte ein, wenn sie mehrere Operationen gleichzeitig ausführen müssen. CoVEBench bietet eine anspruchsvolle, diagnostische Testumgebung, um das Video-Editing hin zu realistischen Benutzerworkflows voranzubringen.

English

While recent text-guided video editing models excel at elementary tasks (e.g., style transfer, object insertion), real-world user requests are highly compositional. A single prompt often demands multiple coupled edits, such as modifying subjects, actions, and camera views, while strictly preserving unrelated spatiotemporal content. Existing benchmarks, heavily constrained by isolated edits and coarse global metrics, fail to diagnose how models handle such complex workflows. To address this gap, we introduce CoVEBench, a compositional video editing benchmark comprising 416 curated source videos, 626 multi-point editing instructions, and 9,990 fine-grained checklist items. Covering diverse editing dimensions, CoVEBench evaluates models via MLLM-judged instruction compliance and video fidelity, alongside automated metrics for video quality. Extensive experiments reveal that compositional editing remains a profound challenge: current models frequently omit edits, violate preservation constraints, or introduce artifacts when handling multiple operations simultaneously. CoVEBench provides a challenging, diagnostic testbed to advance video editing toward realistic user workflows.