IVEBench:指示文誘導型ビデオ編集のための現代的なベンチマークスイート 評価
IVEBench: Modern Benchmark Suite for Instruction-Guided Video Editing Assessment
October 13, 2025
著者: Yinan Chen, Jiangning Zhang, Teng Hu, Yuxiang Zeng, Zhucun Xue, Qingdong He, Chengjie Wang, Yong Liu, Xiaobin Hu, Shuicheng Yan
cs.AI
要旨
指示に基づく動画編集は、急速に進化する研究分野として台頭しており、直感的なコンテンツ変換の新たな可能性を提供する一方で、体系的な評価においても重要な課題を提起しています。既存の動画編集ベンチマークは、指示に基づく動画編集の評価を十分にサポートできておらず、さらにソースの多様性の欠如、タスク範囲の狭さ、評価指標の不完全さといった問題を抱えています。これらの課題に対処するため、我々はIVEBenchを導入しました。これは、指示に基づく動画編集の評価に特化して設計された現代的なベンチマークスイートです。IVEBenchは、7つの意味的次元にわたる600本の高品質なソース動画からなる多様なデータベースを備えており、動画の長さは32フレームから1,024フレームまでをカバーしています。さらに、8つの編集タスクカテゴリと35のサブカテゴリを含み、そのプロンプトは大規模言語モデルと専門家のレビューを通じて生成・精緻化されています。特に重要なのは、IVEBenchが動画品質、指示の遵守度、動画の忠実度という3次元の評価プロトコルを確立している点です。これには、従来の評価指標とマルチモーダル大規模言語モデルに基づく評価が統合されています。大規模な実験を通じて、IVEBenchが最先端の指示に基づく動画編集手法をベンチマークする上での有効性が実証され、包括的かつ人間の判断に沿った評価結果を提供する能力が示されました。
English
Instruction-guided video editing has emerged as a rapidly advancing research
direction, offering new opportunities for intuitive content transformation
while also posing significant challenges for systematic evaluation. Existing
video editing benchmarks fail to support the evaluation of instruction-guided
video editing adequately and further suffer from limited source diversity,
narrow task coverage and incomplete evaluation metrics. To address the above
limitations, we introduce IVEBench, a modern benchmark suite specifically
designed for instruction-guided video editing assessment. IVEBench comprises a
diverse database of 600 high-quality source videos, spanning seven semantic
dimensions, and covering video lengths ranging from 32 to 1,024 frames. It
further includes 8 categories of editing tasks with 35 subcategories, whose
prompts are generated and refined through large language models and expert
review. Crucially, IVEBench establishes a three-dimensional evaluation protocol
encompassing video quality, instruction compliance and video fidelity,
integrating both traditional metrics and multimodal large language model-based
assessments. Extensive experiments demonstrate the effectiveness of IVEBench in
benchmarking state-of-the-art instruction-guided video editing methods, showing
its ability to provide comprehensive and human-aligned evaluation outcomes.