IVEBench: Suíte Moderna de Benchmark para Edição de Vídeo Orientada por Instruções
IVEBench: Modern Benchmark Suite for Instruction-Guided Video Editing Assessment
October 13, 2025
Autores: Yinan Chen, Jiangning Zhang, Teng Hu, Yuxiang Zeng, Zhucun Xue, Qingdong He, Chengjie Wang, Yong Liu, Xiaobin Hu, Shuicheng Yan
cs.AI
Resumo
A edição de vídeo guiada por instruções emergiu como uma direção de pesquisa em rápido avanço, oferecendo novas oportunidades para a transformação intuitiva de conteúdo, ao mesmo tempo em que apresenta desafios significativos para uma avaliação sistemática. Os benchmarks existentes para edição de vídeo não suportam adequadamente a avaliação da edição guiada por instruções e ainda sofrem com diversidade limitada de fontes, cobertura restrita de tarefas e métricas de avaliação incompletas. Para abordar essas limitações, introduzimos o IVEBench, um conjunto de benchmarks moderno especificamente projetado para a avaliação de edição de vídeo guiada por instruções. O IVEBench compreende um banco de dados diversificado de 600 vídeos de alta qualidade, abrangendo sete dimensões semânticas e cobrindo durações de vídeo que variam de 32 a 1.024 quadros. Ele ainda inclui 8 categorias de tarefas de edição com 35 subcategorias, cujos prompts são gerados e refinados por meio de modelos de linguagem de grande escala e revisão de especialistas. Crucialmente, o IVEBench estabelece um protocolo de avaliação tridimensional que abrange qualidade de vídeo, conformidade com as instruções e fidelidade do vídeo, integrando tanto métricas tradicionais quanto avaliações baseadas em modelos de linguagem multimodal de grande escala. Experimentos extensivos demonstram a eficácia do IVEBench na avaliação de métodos de edição de vídeo guiada por instruções de última geração, mostrando sua capacidade de fornecer resultados de avaliação abrangentes e alinhados com a percepção humana.
English
Instruction-guided video editing has emerged as a rapidly advancing research
direction, offering new opportunities for intuitive content transformation
while also posing significant challenges for systematic evaluation. Existing
video editing benchmarks fail to support the evaluation of instruction-guided
video editing adequately and further suffer from limited source diversity,
narrow task coverage and incomplete evaluation metrics. To address the above
limitations, we introduce IVEBench, a modern benchmark suite specifically
designed for instruction-guided video editing assessment. IVEBench comprises a
diverse database of 600 high-quality source videos, spanning seven semantic
dimensions, and covering video lengths ranging from 32 to 1,024 frames. It
further includes 8 categories of editing tasks with 35 subcategories, whose
prompts are generated and refined through large language models and expert
review. Crucially, IVEBench establishes a three-dimensional evaluation protocol
encompassing video quality, instruction compliance and video fidelity,
integrating both traditional metrics and multimodal large language model-based
assessments. Extensive experiments demonstrate the effectiveness of IVEBench in
benchmarking state-of-the-art instruction-guided video editing methods, showing
its ability to provide comprehensive and human-aligned evaluation outcomes.