CoVEBench: ¿Pueden los modelos de edición de video manejar instrucciones complejas?

Resumen

Si bien los modelos recientes de edición de video guiada por texto se destacan en tareas elementales (p. ej., transferencia de estilo, inserción de objetos), las solicitudes de los usuarios en entornos reales son altamente compositivas. Una sola instrucción a menudo exige múltiples ediciones acopladas, como modificar sujetos, acciones y vistas de cámara, mientras se preserva estrictamente el contenido espacio-temporal no relacionado. Los puntos de referencia existentes, muy limitados por ediciones aisladas y métricas globales gruesas, no logran diagnosticar cómo los modelos manejan flujos de trabajo tan complejos. Para abordar esta brecha, presentamos CoVEBench, un punto de referencia de edición de video compositiva que comprende 416 videos fuente seleccionados, 626 instrucciones de edición multipunto y 9,990 elementos de lista de verificación detallados. Abarcando diversas dimensiones de edición, CoVEBench evalúa modelos mediante el cumplimiento de instrucciones juzgado por MLLM y la fidelidad del video, junto con métricas automatizadas de calidad de video. Experimentos exhaustivos revelan que la edición compositiva sigue siendo un desafío profundo: los modelos actuales omiten ediciones con frecuencia, violan restricciones de preservación o introducen artefactos al manejar múltiples operaciones simultáneamente. CoVEBench proporciona un banco de pruebas desafiante y diagnóstico para avanzar en la edición de video hacia flujos de trabajo de usuario realistas.

English

While recent text-guided video editing models excel at elementary tasks (e.g., style transfer, object insertion), real-world user requests are highly compositional. A single prompt often demands multiple coupled edits, such as modifying subjects, actions, and camera views, while strictly preserving unrelated spatiotemporal content. Existing benchmarks, heavily constrained by isolated edits and coarse global metrics, fail to diagnose how models handle such complex workflows. To address this gap, we introduce CoVEBench, a compositional video editing benchmark comprising 416 curated source videos, 626 multi-point editing instructions, and 9,990 fine-grained checklist items. Covering diverse editing dimensions, CoVEBench evaluates models via MLLM-judged instruction compliance and video fidelity, alongside automated metrics for video quality. Extensive experiments reveal that compositional editing remains a profound challenge: current models frequently omit edits, violate preservation constraints, or introduce artifacts when handling multiple operations simultaneously. CoVEBench provides a challenging, diagnostic testbed to advance video editing toward realistic user workflows.