VEFX-Bench: Un Benchmark Olistico per l'Editing Video Generico e gli Effetti Visivi
VEFX-Bench: A Holistic Benchmark for Generic Video Editing and Visual Effects
April 17, 2026
Autori: Xiangbo Gao, Sicong Jiang, Bangya Liu, Xinghao Chen, Minglai Yang, Siyuan Yang, Mingyang Wu, Jiongze Yu, Qi Zheng, Haozhi Wang, Jiayi Zhang, Jared Yang, Jie Yang, Zihan Wang, Qing Yin, Zhengzhong Tu
cs.AI
Abstract
Con l'aumento della praticità della creazione video assistita dall'IA, l'editing video guidato da istruzioni è diventato essenziale per perfezionare filmati generati o catturati, al fine di soddisfare requisiti professionali. Tuttavia, il campo manca ancora sia di un dataset su larga scala, annotato da esseri umani, con esempi di editing completi, sia di un valutatore standardizzato per confrontare i sistemi di editing. Le risorse esistenti sono limitate dalla piccola scala, dall'assenza di output modificati o dalla mancanza di etichette umane sulla qualità, mentre la valutazione attuale si basa spesso su costose ispezioni manuali o su giudici generici di modelli visione-linguaggio non specializzati nella qualità dell'editing. Presentiamo VEFX-Dataset, un dataset annotato da esseri umani contenente 5.049 esempi di editing video across 9 categorie principali e 32 sottocategorie, ciascuno etichettato lungo tre dimensioni disaccoppiate: Rispetto dell'Istruzione, Qualità del Rendering ed Esclusività della Modifica. Basandoci su VEFX-Dataset, proponiamo VEFX-Reward, un modello di reward progettato specificamente per la valutazione della qualità dell'editing video. VEFX-Reward elabora congiuntamente il video sorgente, l'istruzione di editing e il video modificato, e prevede punteggi di qualità per dimensione tramite regressione ordinale. Rilasciamo inoltre VEFX-Bench, un benchmark di 300 coppie video-prompt curate per il confronto standardizzato dei sistemi di editing. Gli esperimenti mostrano che VEFX-Reward si allinea maggiormente con i giudizi umani rispetto ai giudici VLM generici e ai precedenti modelli di reward, sia sulle metriche standard IQA/VQA che sulla valutazione delle preferenze per gruppi. Utilizzando VEFX-Reward come valutatore, analizziamo i sistemi di editing video commerciali e open-source rappresentativi, rivelando un divario persistente tra plausibilità visiva, aderenza all'istruzione e località della modifica nei modelli attuali.
English
As AI-assisted video creation becomes increasingly practical, instruction-guided video editing has become essential for refining generated or captured footage to meet professional requirements. Yet the field still lacks both a large-scale human-annotated dataset with complete editing examples and a standardized evaluator for comparing editing systems. Existing resources are limited by small scale, missing edited outputs, or the absence of human quality labels, while current evaluation often relies on expensive manual inspection or generic vision-language model judges that are not specialized for editing quality. We introduce VEFX-Dataset, a human-annotated dataset containing 5,049 video editing examples across 9 major editing categories and 32 subcategories, each labeled along three decoupled dimensions: Instruction Following, Rendering Quality, and Edit Exclusivity. Building on VEFX-Dataset, we propose VEFX-Reward, a reward model designed specifically for video editing quality assessment. VEFX-Reward jointly processes the source video, the editing instruction, and the edited video, and predicts per-dimension quality scores via ordinal regression. We further release VEFX-Bench, a benchmark of 300 curated video-prompt pairs for standardized comparison of editing systems. Experiments show that VEFX-Reward aligns more strongly with human judgments than generic VLM judges and prior reward models on both standard IQA/VQA metrics and group-wise preference evaluation. Using VEFX-Reward as an evaluator, we benchmark representative commercial and open-source video editing systems, revealing a persistent gap between visual plausibility, instruction following, and edit locality in current models.