ViBe: Un conjunto de datos Texto-a-Video para evaluar la alucinación en modelos multimodales grandes.
ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models
November 16, 2024
Autores: Vipula Rawte, Sarthak Jain, Aarush Sinha, Garv Kaushik, Aman Bansal, Prathiksha Rumale Vishwanath, Samyak Rajesh Jain, Aishwarya Naresh Reganti, Vinija Jain, Aman Chadha, Amit P. Sheth, Amitava Das
cs.AI
Resumen
Los últimos avances en los Modelos Multimodales Grandes (LMMs) han ampliado sus capacidades para incluir la comprensión de videos. Específicamente, los modelos de Texto a Video (T2V) han logrado avances significativos en calidad, comprensión y duración, destacándose en la creación de videos a partir de simples indicaciones textuales. Sin embargo, todavía producen con frecuencia contenido alucinado que claramente indica que el video es generado por IA. Presentamos ViBe: un Banco de Pruebas de Texto a Video a gran escala de videos alucinados de modelos T2V. Identificamos cinco tipos principales de alucinación: Sujeto Desvaneciente, Variabilidad Numérica, Disformia Temporal, Error de Omisión e Incongruencia Física. Utilizando 10 modelos T2V de código abierto, desarrollamos el primer conjunto de datos a gran escala de videos alucinados, que consta de 3,782 videos anotados por humanos en estas cinco categorías. ViBe ofrece un recurso único para evaluar la fiabilidad de los modelos T2V y sienta las bases para mejorar la detección y mitigación de alucinaciones en la generación de videos. Establecemos la clasificación como línea base y presentamos varias configuraciones de clasificadores de conjunto, siendo la combinación TimeSFormer + CNN la que ofrece el mejor rendimiento, logrando una precisión de 0.345 y una puntuación F1 de 0.342. Este banco de pruebas tiene como objetivo impulsar el desarrollo de modelos T2V robustos que produzcan videos más alineados de manera precisa con las indicaciones de entrada.
English
Latest developments in Large Multimodal Models (LMMs) have broadened their
capabilities to include video understanding. Specifically, Text-to-video (T2V)
models have made significant progress in quality, comprehension, and duration,
excelling at creating videos from simple textual prompts. Yet, they still
frequently produce hallucinated content that clearly signals the video is
AI-generated. We introduce ViBe: a large-scale Text-to-Video Benchmark of
hallucinated videos from T2V models. We identify five major types of
hallucination: Vanishing Subject, Numeric Variability, Temporal Dysmorphia,
Omission Error, and Physical Incongruity. Using 10 open-source T2V models, we
developed the first large-scale dataset of hallucinated videos, comprising
3,782 videos annotated by humans into these five categories. ViBe offers a
unique resource for evaluating the reliability of T2V models and provides a
foundation for improving hallucination detection and mitigation in video
generation. We establish classification as a baseline and present various
ensemble classifier configurations, with the TimeSFormer + CNN combination
yielding the best performance, achieving 0.345 accuracy and 0.342 F1 score.
This benchmark aims to drive the development of robust T2V models that produce
videos more accurately aligned with input prompts.Summary
AI-Generated Summary