ChatPaper.aiChatPaper

ViBe: Um Benchmark Texto-para-Vídeo para Avaliar Alucinação em Grandes Modelos Multimodais

ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models

November 16, 2024
Autores: Vipula Rawte, Sarthak Jain, Aarush Sinha, Garv Kaushik, Aman Bansal, Prathiksha Rumale Vishwanath, Samyak Rajesh Jain, Aishwarya Naresh Reganti, Vinija Jain, Aman Chadha, Amit P. Sheth, Amitava Das
cs.AI

Resumo

Os mais recentes avanços em Modelos Multimodais de Grande Escala (LMMs) ampliaram suas capacidades para incluir a compreensão de vídeo. Especificamente, os modelos Texto-para-Vídeo (T2V) têm feito progressos significativos em qualidade, compreensão e duração, destacando-se na criação de vídeos a partir de simples sugestões textuais. No entanto, eles ainda frequentemente produzem conteúdo alucinado que claramente indica que o vídeo é gerado por IA. Apresentamos o ViBe: um Benchmark de Grande Escala de Texto-para-Vídeo de vídeos alucinados por modelos T2V. Identificamos cinco principais tipos de alucinação: Sujeito Desaparecido, Variabilidade Numérica, Disformia Temporal, Erro de Omissão e Incongruência Física. Utilizando 10 modelos T2V de código aberto, desenvolvemos o primeiro conjunto de dados de grande escala de vídeos alucinados, composto por 3.782 vídeos anotados por humanos nessas cinco categorias. O ViBe oferece um recurso único para avaliar a confiabilidade de modelos T2V e fornece uma base para melhorar a detecção e mitigação de alucinações na geração de vídeo. Estabelecemos a classificação como linha de base e apresentamos várias configurações de classificadores em conjunto, com a combinação TimeSFormer + CNN obtendo o melhor desempenho, alcançando uma precisão de 0,345 e um escore F1 de 0,342. Este benchmark tem como objetivo impulsionar o desenvolvimento de modelos T2V robustos que produzam vídeos mais precisamente alinhados com as sugestões de entrada.
English
Latest developments in Large Multimodal Models (LMMs) have broadened their capabilities to include video understanding. Specifically, Text-to-video (T2V) models have made significant progress in quality, comprehension, and duration, excelling at creating videos from simple textual prompts. Yet, they still frequently produce hallucinated content that clearly signals the video is AI-generated. We introduce ViBe: a large-scale Text-to-Video Benchmark of hallucinated videos from T2V models. We identify five major types of hallucination: Vanishing Subject, Numeric Variability, Temporal Dysmorphia, Omission Error, and Physical Incongruity. Using 10 open-source T2V models, we developed the first large-scale dataset of hallucinated videos, comprising 3,782 videos annotated by humans into these five categories. ViBe offers a unique resource for evaluating the reliability of T2V models and provides a foundation for improving hallucination detection and mitigation in video generation. We establish classification as a baseline and present various ensemble classifier configurations, with the TimeSFormer + CNN combination yielding the best performance, achieving 0.345 accuracy and 0.342 F1 score. This benchmark aims to drive the development of robust T2V models that produce videos more accurately aligned with input prompts.
PDF104November 21, 2024