VEFX-Bench: Um Benchmark Abrangente para Edição de Vídeo Genérica e Efeitos Visuais

Resumo

À medida que a criação de vídeos assistida por IA se torna cada vez mais prática, a edição de vídeo guiada por instruções tornou-se essencial para refinar filmagens geradas ou capturadas, a fim de atender a requisitos profissionais. No entanto, a área ainda carece tanto de um conjunto de dados em larga escala anotado por humanos, com exemplos completos de edição, quanto de um avaliador padronizado para comparar sistemas de edição. Os recursos existentes são limitados pela pequena escala, pela ausência de resultados editados ou pela falta de rótulos humanos de qualidade, enquanto a avaliação atual frequentemente depende de inspeção manual dispendiosa ou de modelos genéricos de juízes de visão e linguagem que não são especializados em qualidade de edição. Apresentamos o VEFX-Dataset, um conjunto de dados anotado por humanos contendo 5.049 exemplos de edição de vídeo em 9 categorias principais de edição e 32 subcategorias, cada um rotulado ao longo de três dimensões dissociadas: Seguimento da Instrução, Qualidade de Renderização e Exclusividade da Edição. Com base no VEFX-Dataset, propomos o VEFX-Reward, um modelo de recompensa projetado especificamente para avaliação da qualidade de edição de vídeo. O VEFX-Reward processa conjuntamente o vídeo de origem, a instrução de edição e o vídeo editado, e prevê pontuações de qualidade por dimensão via regressão ordinal. Liberamos ainda o VEFX-Bench, um benchmark de 300 pares de vídeo-instrução selecionados para comparação padronizada de sistemas de edição. Experimentos mostram que o VEFX-Reward se alinha mais fortemente com os julgamentos humanos do que juízes de VLM genéricos e modelos de recompensa anteriores, tanto em métricas padrão de IQA/VQA quanto em avaliação de preferência por grupo. Usando o VEFX-Reward como avaliador, analisamos sistemas representativos de edição de vídeo comerciais e de código aberto, revelando uma lacuna persistente entre plausibilidade visual, seguimento da instrução e localidade da edição nos modelos atuais.

English

As AI-assisted video creation becomes increasingly practical, instruction-guided video editing has become essential for refining generated or captured footage to meet professional requirements. Yet the field still lacks both a large-scale human-annotated dataset with complete editing examples and a standardized evaluator for comparing editing systems. Existing resources are limited by small scale, missing edited outputs, or the absence of human quality labels, while current evaluation often relies on expensive manual inspection or generic vision-language model judges that are not specialized for editing quality. We introduce VEFX-Dataset, a human-annotated dataset containing 5,049 video editing examples across 9 major editing categories and 32 subcategories, each labeled along three decoupled dimensions: Instruction Following, Rendering Quality, and Edit Exclusivity. Building on VEFX-Dataset, we propose VEFX-Reward, a reward model designed specifically for video editing quality assessment. VEFX-Reward jointly processes the source video, the editing instruction, and the edited video, and predicts per-dimension quality scores via ordinal regression. We further release VEFX-Bench, a benchmark of 300 curated video-prompt pairs for standardized comparison of editing systems. Experiments show that VEFX-Reward aligns more strongly with human judgments than generic VLM judges and prior reward models on both standard IQA/VQA metrics and group-wise preference evaluation. Using VEFX-Reward as an evaluator, we benchmark representative commercial and open-source video editing systems, revealing a persistent gap between visual plausibility, instruction following, and edit locality in current models.

VEFX-Bench: Um Benchmark Abrangente para Edição de Vídeo Genérica e Efeitos Visuais

VEFX-Bench: A Holistic Benchmark for Generic Video Editing and Visual Effects

Resumo

Support