VideoHallucer: Evaluación de Alucinaciones Intrínsecas y Extrínsecas en Modelos de Lenguaje y Video a Gran Escala
VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models
June 24, 2024
Autores: Yuxuan Wang, Yueqian Wang, Dongyan Zhao, Cihang Xie, Zilong Zheng
cs.AI
Resumen
Los recientes avances en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) han ampliado sus capacidades hacia la comprensión de videos. Sin embargo, estos modelos suelen verse afectados por "alucinaciones", donde se genera contenido irrelevante o sin sentido, desviándose del contexto real del video. Este trabajo presenta VideoHallucer, el primer benchmark integral para la detección de alucinaciones en modelos grandes de video-lenguaje (LVLMs). VideoHallucer clasifica las alucinaciones en dos tipos principales: intrínsecas y extrínsecas, ofreciendo subcategorías adicionales para un análisis detallado, incluyendo alucinaciones de relación-objeto, temporales, de detalle semántico, extrínsecas factuales y extrínsecas no factuales. Adoptamos un método adversarial binario de VideoQA para una evaluación exhaustiva, donde se elaboran estratégicamente pares de preguntas básicas y alucinadas. Al evaluar once LVLMs en VideoHallucer, revelamos que i) la mayoría de los modelos actuales presentan problemas significativos con las alucinaciones; ii) aunque escalar conjuntos de datos y parámetros mejora la capacidad de los modelos para detectar señales visuales básicas y contrafactuales, ofrece un beneficio limitado para detectar alucinaciones extrínsecas factuales; iii) los modelos existentes son más hábiles para detectar hechos que para identificar alucinaciones. Como subproducto, estos análisis guían además el desarrollo de nuestro marco self-PEP, logrando una mejora promedio del 5.38% en la resistencia a alucinaciones en todas las arquitecturas de modelos.
English
Recent advancements in Multimodal Large Language Models (MLLMs) have extended
their capabilities to video understanding. Yet, these models are often plagued
by "hallucinations", where irrelevant or nonsensical content is generated,
deviating from the actual video context. This work introduces VideoHallucer,
the first comprehensive benchmark for hallucination detection in large
video-language models (LVLMs). VideoHallucer categorizes hallucinations into
two main types: intrinsic and extrinsic, offering further subcategories for
detailed analysis, including object-relation, temporal, semantic detail,
extrinsic factual, and extrinsic non-factual hallucinations. We adopt an
adversarial binary VideoQA method for comprehensive evaluation, where pairs of
basic and hallucinated questions are crafted strategically. By evaluating
eleven LVLMs on VideoHallucer, we reveal that i) the majority of current models
exhibit significant issues with hallucinations; ii) while scaling datasets and
parameters improves models' ability to detect basic visual cues and
counterfactuals, it provides limited benefit for detecting extrinsic factual
hallucinations; iii) existing models are more adept at detecting facts than
identifying hallucinations. As a byproduct, these analyses further instruct the
development of our self-PEP framework, achieving an average of 5.38%
improvement in hallucination resistance across all model architectures.Summary
AI-Generated Summary