ChatPaper.aiChatPaper

IVEBench: Moderner Benchmark-Suite für instruktionsgesteuerte Videobearbeitung Bewertung

IVEBench: Modern Benchmark Suite for Instruction-Guided Video Editing Assessment

October 13, 2025
papers.authors: Yinan Chen, Jiangning Zhang, Teng Hu, Yuxiang Zeng, Zhucun Xue, Qingdong He, Chengjie Wang, Yong Liu, Xiaobin Hu, Shuicheng Yan
cs.AI

papers.abstract

Die anweisungsgesteuerte Videobearbeitung hat sich als ein schnell voranschreitender Forschungsbereich etabliert, der neue Möglichkeiten für intuitive Inhaltsumwandlungen bietet, aber auch erhebliche Herausforderungen für eine systematische Bewertung mit sich bringt. Bestehende Benchmarks für die Videobearbeitung unterstützen die Bewertung anweisungsgesteuerter Videobearbeitung nur unzureichend und leiden zudem unter begrenzter Quellenvielfalt, eingeschränkter Aufgabenabdeckung und unvollständigen Bewertungsmetriken. Um diese Einschränkungen zu überwinden, stellen wir IVEBench vor, eine moderne Benchmark-Suite, die speziell für die Bewertung anweisungsgesteuerter Videobearbeitung entwickelt wurde. IVEBench umfasst eine vielfältige Datenbank mit 600 hochwertigen Quellvideos, die sieben semantische Dimensionen abdecken und Videolängen von 32 bis 1.024 Bildern umfassen. Darüber hinaus beinhaltet es 8 Kategorien von Bearbeitungsaufgaben mit 35 Unterkategorien, deren Anweisungen durch große Sprachmodelle generiert und durch Expertenüberprüfung verfeinert wurden. Entscheidend ist, dass IVEBench ein dreidimensionales Bewertungsprotokoll etabliert, das Videoqualität, Anweisungserfüllung und Videotreue umfasst und sowohl traditionelle Metriken als auch multimodale, auf großen Sprachmodellen basierende Bewertungen integriert. Umfangreiche Experimente demonstrieren die Wirksamkeit von IVEBench bei der Bewertung modernster Methoden der anweisungsgesteuerten Videobearbeitung und zeigen seine Fähigkeit, umfassende und menschenorientierte Bewertungsergebnisse zu liefern.
English
Instruction-guided video editing has emerged as a rapidly advancing research direction, offering new opportunities for intuitive content transformation while also posing significant challenges for systematic evaluation. Existing video editing benchmarks fail to support the evaluation of instruction-guided video editing adequately and further suffer from limited source diversity, narrow task coverage and incomplete evaluation metrics. To address the above limitations, we introduce IVEBench, a modern benchmark suite specifically designed for instruction-guided video editing assessment. IVEBench comprises a diverse database of 600 high-quality source videos, spanning seven semantic dimensions, and covering video lengths ranging from 32 to 1,024 frames. It further includes 8 categories of editing tasks with 35 subcategories, whose prompts are generated and refined through large language models and expert review. Crucially, IVEBench establishes a three-dimensional evaluation protocol encompassing video quality, instruction compliance and video fidelity, integrating both traditional metrics and multimodal large language model-based assessments. Extensive experiments demonstrate the effectiveness of IVEBench in benchmarking state-of-the-art instruction-guided video editing methods, showing its ability to provide comprehensive and human-aligned evaluation outcomes.
PDF22October 14, 2025