VideoHallucer: Avaliando Alucinações Intrínsecas e Extrínsecas em Modelos de Linguagem de Vídeo de Grande Escala
VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models
June 24, 2024
Autores: Yuxuan Wang, Yueqian Wang, Dongyan Zhao, Cihang Xie, Zilong Zheng
cs.AI
Resumo
Os avanços recentes em Modelos de Linguagem Multimodais de Grande Escala (MLLMs) estenderam suas capacidades para a compreensão de vídeos. No entanto, esses modelos frequentemente sofrem de "alucinações", onde conteúdo irrelevante ou sem sentido é gerado, desviando-se do contexto real do vídeo. Este trabalho apresenta o VideoHallucer, o primeiro benchmark abrangente para detecção de alucinações em grandes modelos de vídeo-linguagem (LVLMs). O VideoHallucer categoriza as alucinações em dois tipos principais: intrínsecas e extrínsecas, oferecendo subcategorias adicionais para análise detalhada, incluindo alucinações de relação objeto, temporais, detalhes semânticos, factuais extrínsecas e alucinações não factuais extrínsecas. Adotamos um método binário adversarial de VideoQA para avaliação abrangente, onde pares de perguntas básicas e alucinadas são elaborados estrategicamente. Ao avaliar onze LVLMs no VideoHallucer, revelamos que i) a maioria dos modelos atuais apresenta problemas significativos com alucinações; ii) enquanto a ampliação de conjuntos de dados e parâmetros melhora a capacidade dos modelos de detectar pistas visuais básicas e contrafactuais, ela oferece benefícios limitados para detectar alucinações factuais extrínsecas; iii) os modelos existentes são mais habilidosos em detectar fatos do que identificar alucinações. Como subproduto, essas análises instruem ainda mais o desenvolvimento de nosso framework self-PEP, alcançando uma melhoria média de 5,38% na resistência à alucinação em todas as arquiteturas de modelo.
English
Recent advancements in Multimodal Large Language Models (MLLMs) have extended
their capabilities to video understanding. Yet, these models are often plagued
by "hallucinations", where irrelevant or nonsensical content is generated,
deviating from the actual video context. This work introduces VideoHallucer,
the first comprehensive benchmark for hallucination detection in large
video-language models (LVLMs). VideoHallucer categorizes hallucinations into
two main types: intrinsic and extrinsic, offering further subcategories for
detailed analysis, including object-relation, temporal, semantic detail,
extrinsic factual, and extrinsic non-factual hallucinations. We adopt an
adversarial binary VideoQA method for comprehensive evaluation, where pairs of
basic and hallucinated questions are crafted strategically. By evaluating
eleven LVLMs on VideoHallucer, we reveal that i) the majority of current models
exhibit significant issues with hallucinations; ii) while scaling datasets and
parameters improves models' ability to detect basic visual cues and
counterfactuals, it provides limited benefit for detecting extrinsic factual
hallucinations; iii) existing models are more adept at detecting facts than
identifying hallucinations. As a byproduct, these analyses further instruct the
development of our self-PEP framework, achieving an average of 5.38%
improvement in hallucination resistance across all model architectures.