VEFX-Bench: Een Holistische Benchmark voor Algemene Videobewerking en Visuele Effecten

Samenvatting

Naarmate AI-gestuurde videoproductie steeds praktischer wordt, is instructiegestuurd videobewerken essentieel geworden om gegenereerd of opgenomen beeldmateriaal te verfijnen volgens professionele eisen. Desalniettemin ontbreekt het het veld nog steeds zowel aan een grootschalige, door mensen geannoteerde dataset met complete bewerkingsvoorbeelden als aan een gestandaardiseerde evaluatiemethode voor het vergelijken van bewerkingssystemen. Bestaande bronnen zijn beperkt door hun kleine omvang, ontbrekende bewerkte uitvoer of het ontbreken van kwaliteitslabels door mensen, terwijl huidige evaluatie vaak afhankelijk is van dure handmatige inspectie of generieke vision-language model-beoordelaars die niet gespecialiseerd zijn in bewerkingskwaliteit. Wij introduceren VEFX-Dataset, een door mensen geannoteerde dataset met 5.049 videobewerkingsvoorbeelden verdeeld over 9 hoofd- en 32 subcategorieën, elk gelabeld langs drie ontkoppelde dimensies: Instructievolging, Renderkwaliteit en Bewerkingsspecificiteit. Voortbouwend op VEFX-Dataset stellen we VEFX-Reward voor, een beloningsmodel specifiek ontworpen voor kwaliteitsbeoordeling van videobewerkingen. VEFX-Reward verwerkt gezamenlijk de bronvideo, de bewerkinstructie en de bewerkte video, en voorspelt per-dimensie kwaliteitsscores via ordinale regressie. Verder brengen we VEFX-Bench uit, een benchmark met 300 geselecteerde video-prompt paren voor gestandaardiseerde vergelijking van bewerkingssystemen. Experimenten tonen aan dat VEFX-Reward sterker overeenkomt met menselijke oordelen dan generieke VLM-beoordelaars en eerdere beloningsmodellen, zowel op standaard IQA/VQA-metrics als bij evaluatie van groepsgewijze voorkeuren. Door VEFX-Reward als evaluator te gebruiken, benchmarken we representatieve commerciële en open-source videobewerkingssystemen, wat een aanhoudende kloof aan het licht brengt tussen visuele geloofwaardigheid, instructievolging en bewerkingslocaliteit in huidige modellen.

English

As AI-assisted video creation becomes increasingly practical, instruction-guided video editing has become essential for refining generated or captured footage to meet professional requirements. Yet the field still lacks both a large-scale human-annotated dataset with complete editing examples and a standardized evaluator for comparing editing systems. Existing resources are limited by small scale, missing edited outputs, or the absence of human quality labels, while current evaluation often relies on expensive manual inspection or generic vision-language model judges that are not specialized for editing quality. We introduce VEFX-Dataset, a human-annotated dataset containing 5,049 video editing examples across 9 major editing categories and 32 subcategories, each labeled along three decoupled dimensions: Instruction Following, Rendering Quality, and Edit Exclusivity. Building on VEFX-Dataset, we propose VEFX-Reward, a reward model designed specifically for video editing quality assessment. VEFX-Reward jointly processes the source video, the editing instruction, and the edited video, and predicts per-dimension quality scores via ordinal regression. We further release VEFX-Bench, a benchmark of 300 curated video-prompt pairs for standardized comparison of editing systems. Experiments show that VEFX-Reward aligns more strongly with human judgments than generic VLM judges and prior reward models on both standard IQA/VQA metrics and group-wise preference evaluation. Using VEFX-Reward as an evaluator, we benchmark representative commercial and open-source video editing systems, revealing a persistent gap between visual plausibility, instruction following, and edit locality in current models.

VEFX-Bench: Een Holistische Benchmark voor Algemene Videobewerking en Visuele Effecten

VEFX-Bench: A Holistic Benchmark for Generic Video Editing and Visual Effects

Samenvatting

Support