ViBe:大規模なマルチモーダルモデルにおける幻覚評価のためのテキストからビデオへのベンチマーク
ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models
November 16, 2024
著者: Vipula Rawte, Sarthak Jain, Aarush Sinha, Garv Kaushik, Aman Bansal, Prathiksha Rumale Vishwanath, Samyak Rajesh Jain, Aishwarya Naresh Reganti, Vinija Jain, Aman Chadha, Amit P. Sheth, Amitava Das
cs.AI
要旨
大規模多モーダルモデル(LMMs)の最新の進展により、その機能はビデオ理解を含むように拡大されました。具体的には、テキストからビデオ(T2V)モデルは、品質、理解力、および長さにおいて著しい進歩を遂げ、単純なテキストプロンプトからビデオを作成することで優れています。しかし、依然として、彼らはしばしば幻覚的なコンテンツを生成し、そのビデオがAIによって生成されたことを明確に示しています。私たちはViBeを紹介します:T2Vモデルからの幻覚ビデオの大規模なベンチマークです。私たちは、消失主体、数値の変動、時間的ジスモルフィア、省略エラー、物理的不一致の5つの主要な幻覚タイプを特定しました。10のオープンソースのT2Vモデルを使用して、最初の大規模な幻覚ビデオデータセットを開発しました。このデータセットには、人間によってこれらの5つのカテゴリにアノテーションが付けられた3,782本のビデオが含まれています。ViBeは、T2Vモデルの信頼性を評価し、ビデオ生成における幻覚の検出と軽減を改善するための基盤を提供するユニークなリソースです。私たちは分類をベースラインとして確立し、さまざまなアンサンブル分類器構成を提示しました。その中で、TimeSFormer + CNNの組み合わせが最良の性能を発揮し、0.345の精度と0.342のF1スコアを達成しました。このベンチマークは、入力プロンプトとより正確に整合するビデオを生成する堅牢なT2Vモデルの開発を推進することを目的としています。
English
Latest developments in Large Multimodal Models (LMMs) have broadened their
capabilities to include video understanding. Specifically, Text-to-video (T2V)
models have made significant progress in quality, comprehension, and duration,
excelling at creating videos from simple textual prompts. Yet, they still
frequently produce hallucinated content that clearly signals the video is
AI-generated. We introduce ViBe: a large-scale Text-to-Video Benchmark of
hallucinated videos from T2V models. We identify five major types of
hallucination: Vanishing Subject, Numeric Variability, Temporal Dysmorphia,
Omission Error, and Physical Incongruity. Using 10 open-source T2V models, we
developed the first large-scale dataset of hallucinated videos, comprising
3,782 videos annotated by humans into these five categories. ViBe offers a
unique resource for evaluating the reliability of T2V models and provides a
foundation for improving hallucination detection and mitigation in video
generation. We establish classification as a baseline and present various
ensemble classifier configurations, with the TimeSFormer + CNN combination
yielding the best performance, achieving 0.345 accuracy and 0.342 F1 score.
This benchmark aims to drive the development of robust T2V models that produce
videos more accurately aligned with input prompts.Summary
AI-Generated Summary