ChatPaper.aiChatPaper

IVEBench: 지시 기반 비디오 편집을 위한 현대적 벤치마크 스위트 평가

IVEBench: Modern Benchmark Suite for Instruction-Guided Video Editing Assessment

October 13, 2025
저자: Yinan Chen, Jiangning Zhang, Teng Hu, Yuxiang Zeng, Zhucun Xue, Qingdong He, Chengjie Wang, Yong Liu, Xiaobin Hu, Shuicheng Yan
cs.AI

초록

지침 기반 비디오 편집은 직관적인 콘텐츠 변환을 위한 새로운 기회를 제공하면서도 체계적인 평가에 있어 상당한 도전 과제를 제시하며, 빠르게 발전하는 연구 분야로 부상하고 있다. 기존의 비디오 편집 벤치마크는 지침 기반 비디오 편집의 평가를 충분히 지원하지 못하며, 소스 다양성의 부족, 좁은 작업 범위, 불완전한 평가 지표 등의 문제를 겪고 있다. 이러한 한계를 해결하기 위해, 우리는 지침 기반 비디오 편집 평가를 위해 특별히 설계된 현대적인 벤치마크 제품군인 IVEBench를 소개한다. IVEBench는 7개의 의미론적 차원에 걸쳐 32프레임에서 1,024프레임까지 다양한 길이의 600개의 고품질 소스 비디오 데이터베이스로 구성되어 있다. 또한, 대형 언어 모델과 전문가 검토를 통해 생성 및 정제된 35개의 하위 범주를 포함한 8개의 편집 작업 카테고리를 포함한다. 특히, IVEBench는 비디오 품질, 지침 준수 및 비디오 충실도를 포괄하는 3차원 평가 프로토콜을 확립하며, 전통적인 지표와 다중 모드 대형 언어 모델 기반 평가를 통합한다. 광범위한 실험을 통해 IVEBench가 최신 지침 기반 비디오 편집 방법을 벤치마킹하는 데 효과적이며, 포괄적이고 인간 중심의 평가 결과를 제공할 수 있는 능력을 입증하였다.
English
Instruction-guided video editing has emerged as a rapidly advancing research direction, offering new opportunities for intuitive content transformation while also posing significant challenges for systematic evaluation. Existing video editing benchmarks fail to support the evaluation of instruction-guided video editing adequately and further suffer from limited source diversity, narrow task coverage and incomplete evaluation metrics. To address the above limitations, we introduce IVEBench, a modern benchmark suite specifically designed for instruction-guided video editing assessment. IVEBench comprises a diverse database of 600 high-quality source videos, spanning seven semantic dimensions, and covering video lengths ranging from 32 to 1,024 frames. It further includes 8 categories of editing tasks with 35 subcategories, whose prompts are generated and refined through large language models and expert review. Crucially, IVEBench establishes a three-dimensional evaluation protocol encompassing video quality, instruction compliance and video fidelity, integrating both traditional metrics and multimodal large language model-based assessments. Extensive experiments demonstrate the effectiveness of IVEBench in benchmarking state-of-the-art instruction-guided video editing methods, showing its ability to provide comprehensive and human-aligned evaluation outcomes.
PDF22October 14, 2025