IVEBench: Suíte Moderna de Benchmark para Edição de Vídeo Orientada por Instruções

Resumo

A edição de vídeo guiada por instruções emergiu como uma direção de pesquisa em rápido avanço, oferecendo novas oportunidades para a transformação intuitiva de conteúdo, ao mesmo tempo em que apresenta desafios significativos para uma avaliação sistemática. Os benchmarks existentes para edição de vídeo não suportam adequadamente a avaliação da edição guiada por instruções e ainda sofrem com diversidade limitada de fontes, cobertura restrita de tarefas e métricas de avaliação incompletas. Para abordar essas limitações, introduzimos o IVEBench, um conjunto de benchmarks moderno especificamente projetado para a avaliação de edição de vídeo guiada por instruções. O IVEBench compreende um banco de dados diversificado de 600 vídeos de alta qualidade, abrangendo sete dimensões semânticas e cobrindo durações de vídeo que variam de 32 a 1.024 quadros. Ele ainda inclui 8 categorias de tarefas de edição com 35 subcategorias, cujos prompts são gerados e refinados por meio de modelos de linguagem de grande escala e revisão de especialistas. Crucialmente, o IVEBench estabelece um protocolo de avaliação tridimensional que abrange qualidade de vídeo, conformidade com as instruções e fidelidade do vídeo, integrando tanto métricas tradicionais quanto avaliações baseadas em modelos de linguagem multimodal de grande escala. Experimentos extensivos demonstram a eficácia do IVEBench na avaliação de métodos de edição de vídeo guiada por instruções de última geração, mostrando sua capacidade de fornecer resultados de avaliação abrangentes e alinhados com a percepção humana.

English

Instruction-guided video editing has emerged as a rapidly advancing research direction, offering new opportunities for intuitive content transformation while also posing significant challenges for systematic evaluation. Existing video editing benchmarks fail to support the evaluation of instruction-guided video editing adequately and further suffer from limited source diversity, narrow task coverage and incomplete evaluation metrics. To address the above limitations, we introduce IVEBench, a modern benchmark suite specifically designed for instruction-guided video editing assessment. IVEBench comprises a diverse database of 600 high-quality source videos, spanning seven semantic dimensions, and covering video lengths ranging from 32 to 1,024 frames. It further includes 8 categories of editing tasks with 35 subcategories, whose prompts are generated and refined through large language models and expert review. Crucially, IVEBench establishes a three-dimensional evaluation protocol encompassing video quality, instruction compliance and video fidelity, integrating both traditional metrics and multimodal large language model-based assessments. Extensive experiments demonstrate the effectiveness of IVEBench in benchmarking state-of-the-art instruction-guided video editing methods, showing its ability to provide comprehensive and human-aligned evaluation outcomes.

IVEBench: Suíte Moderna de Benchmark para Edição de Vídeo Orientada por Instruções

IVEBench: Modern Benchmark Suite for Instruction-Guided Video Editing Assessment

Resumo

Support