IVEBench: Conjunto de Pruebas de Referencia Moderno para la Edición de Vídeo Guiada por Instrucciones
IVEBench: Modern Benchmark Suite for Instruction-Guided Video Editing Assessment
October 13, 2025
Autores: Yinan Chen, Jiangning Zhang, Teng Hu, Yuxiang Zeng, Zhucun Xue, Qingdong He, Chengjie Wang, Yong Liu, Xiaobin Hu, Shuicheng Yan
cs.AI
Resumen
La edición de videos guiada por instrucciones ha surgido como una dirección de investigación en rápido avance, ofreciendo nuevas oportunidades para la transformación intuitiva de contenido, al mismo tiempo que plantea desafíos significativos para su evaluación sistemática. Los puntos de referencia existentes para la edición de videos no respaldan adecuadamente la evaluación de la edición guiada por instrucciones y, además, adolecen de una diversidad limitada de fuentes, una cobertura reducida de tareas y métricas de evaluación incompletas. Para abordar estas limitaciones, presentamos IVEBench, un conjunto de puntos de referencia moderno diseñado específicamente para la evaluación de la edición de videos guiada por instrucciones. IVEBench comprende una base de datos diversa de 600 videos fuente de alta calidad, que abarcan siete dimensiones semánticas y cubren longitudes de video que van desde 32 hasta 1,024 fotogramas. Además, incluye 8 categorías de tareas de edición con 35 subcategorías, cuyas instrucciones son generadas y refinadas mediante modelos de lenguaje de gran escala y revisión experta. De manera crucial, IVEBench establece un protocolo de evaluación tridimensional que abarca la calidad del video, el cumplimiento de las instrucciones y la fidelidad del video, integrando tanto métricas tradicionales como evaluaciones basadas en modelos de lenguaje multimodal de gran escala. Experimentos exhaustivos demuestran la efectividad de IVEBench en la evaluación comparativa de métodos de edición de videos guiada por instrucciones de vanguardia, mostrando su capacidad para proporcionar resultados de evaluación integrales y alineados con la percepción humana.
English
Instruction-guided video editing has emerged as a rapidly advancing research
direction, offering new opportunities for intuitive content transformation
while also posing significant challenges for systematic evaluation. Existing
video editing benchmarks fail to support the evaluation of instruction-guided
video editing adequately and further suffer from limited source diversity,
narrow task coverage and incomplete evaluation metrics. To address the above
limitations, we introduce IVEBench, a modern benchmark suite specifically
designed for instruction-guided video editing assessment. IVEBench comprises a
diverse database of 600 high-quality source videos, spanning seven semantic
dimensions, and covering video lengths ranging from 32 to 1,024 frames. It
further includes 8 categories of editing tasks with 35 subcategories, whose
prompts are generated and refined through large language models and expert
review. Crucially, IVEBench establishes a three-dimensional evaluation protocol
encompassing video quality, instruction compliance and video fidelity,
integrating both traditional metrics and multimodal large language model-based
assessments. Extensive experiments demonstrate the effectiveness of IVEBench in
benchmarking state-of-the-art instruction-guided video editing methods, showing
its ability to provide comprehensive and human-aligned evaluation outcomes.