ChatPaper.aiChatPaper

ViBe: Набор данных Text-to-Video для оценки галлюцинаций в крупных мультимодальных моделях

ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models

November 16, 2024
Авторы: Vipula Rawte, Sarthak Jain, Aarush Sinha, Garv Kaushik, Aman Bansal, Prathiksha Rumale Vishwanath, Samyak Rajesh Jain, Aishwarya Naresh Reganti, Vinija Jain, Aman Chadha, Amit P. Sheth, Amitava Das
cs.AI

Аннотация

Последние достижения в области крупных мультимодальных моделей (LMM) расширили их возможности, включая понимание видео. В частности, модели текста-к-видео (T2V) значительно продвинулись в качестве, понимании и продолжительности, превосходя в создании видео из простых текстовых подсказок. Однако они по-прежнему часто производят галлюцинационный контент, который явно указывает на то, что видео создано искусственным интеллектом. Мы представляем ViBe: крупномасштабный бенчмарк текста-к-видео для галлюцинационных видео от моделей T2V. Мы выделяем пять основных типов галлюцинаций: Исчезающий Субъект, Числовая Вариабельность, Временная Дисморфия, Ошибка Пропуска и Физическая Несоответственность. Используя 10 открытых моделей T2V, мы разработали первый крупномасштабный набор данных галлюцинационных видео, включающий 3 782 видео, размеченных людьми по этим пяти категориям. ViBe предлагает уникальный ресурс для оценки надежности моделей T2V и является основой для улучшения обнаружения и уменьшения галлюцинаций в генерации видео. Мы устанавливаем классификацию как базовую и представляем различные конфигурации ансамблевых классификаторов, с комбинацией TimeSFormer + CNN, обеспечивающей лучшую производительность, достигая точности 0,345 и F1-меры 0,342. Этот бенчмарк направлен на развитие надежных моделей T2V, которые создают видео более точно соответствующие входным подсказкам.
English
Latest developments in Large Multimodal Models (LMMs) have broadened their capabilities to include video understanding. Specifically, Text-to-video (T2V) models have made significant progress in quality, comprehension, and duration, excelling at creating videos from simple textual prompts. Yet, they still frequently produce hallucinated content that clearly signals the video is AI-generated. We introduce ViBe: a large-scale Text-to-Video Benchmark of hallucinated videos from T2V models. We identify five major types of hallucination: Vanishing Subject, Numeric Variability, Temporal Dysmorphia, Omission Error, and Physical Incongruity. Using 10 open-source T2V models, we developed the first large-scale dataset of hallucinated videos, comprising 3,782 videos annotated by humans into these five categories. ViBe offers a unique resource for evaluating the reliability of T2V models and provides a foundation for improving hallucination detection and mitigation in video generation. We establish classification as a baseline and present various ensemble classifier configurations, with the TimeSFormer + CNN combination yielding the best performance, achieving 0.345 accuracy and 0.342 F1 score. This benchmark aims to drive the development of robust T2V models that produce videos more accurately aligned with input prompts.

Summary

AI-Generated Summary

PDF104November 21, 2024