CoVEBench: Могут ли модели редактирования видео справляться со сложными инструкциями?

Аннотация

Хотя современные модели редактирования видео по текстовым запросам успешно справляются с элементарными задачами (например, перенос стиля, вставка объектов), реальные пользовательские запросы носят высококомпозиционный характер. Один запрос часто требует множества связанных изменений, таких как модификация субъектов, действий и ракурсов камеры, при строгом сохранении нерелевантного пространственно-временного контента. Существующие бенчмарки, ограниченные изолированными правками и грубыми глобальными метриками, не позволяют оценить, как модели справляются с подобными сложными рабочими процессами. Для устранения этого пробела мы представляем CoVEBench — композиционный бенчмарк редактирования видео, включающий 416 тщательно отобранных исходных видео, 626 инструкций по многоточечному редактированию и 9 990 детализированных пунктов проверки. Охватывая различные аспекты редактирования, CoVEBench оценивает модели как по соответствию инструкциям и качеству видео, определяемым MLLM (мультимодальными большими языковыми моделями), так и по автоматизированным метрикам видеокачества. Обширные эксперименты показывают, что композиционное редактирование остается серьезной проблемой: современные модели часто пропускают правки, нарушают ограничения сохранения или создают артефакты при одновременной обработке нескольких операций. CoVEBench предоставляет сложный диагностический тестовый полигон для продвижения редактирования видео в сторону реалистичных пользовательских сценариев.

English

While recent text-guided video editing models excel at elementary tasks (e.g., style transfer, object insertion), real-world user requests are highly compositional. A single prompt often demands multiple coupled edits, such as modifying subjects, actions, and camera views, while strictly preserving unrelated spatiotemporal content. Existing benchmarks, heavily constrained by isolated edits and coarse global metrics, fail to diagnose how models handle such complex workflows. To address this gap, we introduce CoVEBench, a compositional video editing benchmark comprising 416 curated source videos, 626 multi-point editing instructions, and 9,990 fine-grained checklist items. Covering diverse editing dimensions, CoVEBench evaluates models via MLLM-judged instruction compliance and video fidelity, alongside automated metrics for video quality. Extensive experiments reveal that compositional editing remains a profound challenge: current models frequently omit edits, violate preservation constraints, or introduce artifacts when handling multiple operations simultaneously. CoVEBench provides a challenging, diagnostic testbed to advance video editing toward realistic user workflows.