IVEBench: Conjunto de Pruebas de Referencia Moderno para la Edición de Vídeo Guiada por Instrucciones

Resumen

La edición de videos guiada por instrucciones ha surgido como una dirección de investigación en rápido avance, ofreciendo nuevas oportunidades para la transformación intuitiva de contenido, al mismo tiempo que plantea desafíos significativos para su evaluación sistemática. Los puntos de referencia existentes para la edición de videos no respaldan adecuadamente la evaluación de la edición guiada por instrucciones y, además, adolecen de una diversidad limitada de fuentes, una cobertura reducida de tareas y métricas de evaluación incompletas. Para abordar estas limitaciones, presentamos IVEBench, un conjunto de puntos de referencia moderno diseñado específicamente para la evaluación de la edición de videos guiada por instrucciones. IVEBench comprende una base de datos diversa de 600 videos fuente de alta calidad, que abarcan siete dimensiones semánticas y cubren longitudes de video que van desde 32 hasta 1,024 fotogramas. Además, incluye 8 categorías de tareas de edición con 35 subcategorías, cuyas instrucciones son generadas y refinadas mediante modelos de lenguaje de gran escala y revisión experta. De manera crucial, IVEBench establece un protocolo de evaluación tridimensional que abarca la calidad del video, el cumplimiento de las instrucciones y la fidelidad del video, integrando tanto métricas tradicionales como evaluaciones basadas en modelos de lenguaje multimodal de gran escala. Experimentos exhaustivos demuestran la efectividad de IVEBench en la evaluación comparativa de métodos de edición de videos guiada por instrucciones de vanguardia, mostrando su capacidad para proporcionar resultados de evaluación integrales y alineados con la percepción humana.

English

Instruction-guided video editing has emerged as a rapidly advancing research direction, offering new opportunities for intuitive content transformation while also posing significant challenges for systematic evaluation. Existing video editing benchmarks fail to support the evaluation of instruction-guided video editing adequately and further suffer from limited source diversity, narrow task coverage and incomplete evaluation metrics. To address the above limitations, we introduce IVEBench, a modern benchmark suite specifically designed for instruction-guided video editing assessment. IVEBench comprises a diverse database of 600 high-quality source videos, spanning seven semantic dimensions, and covering video lengths ranging from 32 to 1,024 frames. It further includes 8 categories of editing tasks with 35 subcategories, whose prompts are generated and refined through large language models and expert review. Crucially, IVEBench establishes a three-dimensional evaluation protocol encompassing video quality, instruction compliance and video fidelity, integrating both traditional metrics and multimodal large language model-based assessments. Extensive experiments demonstrate the effectiveness of IVEBench in benchmarking state-of-the-art instruction-guided video editing methods, showing its ability to provide comprehensive and human-aligned evaluation outcomes.

IVEBench: Conjunto de Pruebas de Referencia Moderno para la Edición de Vídeo Guiada por Instrucciones

IVEBench: Modern Benchmark Suite for Instruction-Guided Video Editing Assessment

Resumen

Support