ChatPaper.aiChatPaper

VideoHallucer: Valutazione delle Allucinazioni Intrinseche ed Estrinseche nei Modelli Linguistico-Video di Grande Scala

VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models

June 24, 2024
Autori: Yuxuan Wang, Yueqian Wang, Dongyan Zhao, Cihang Xie, Zilong Zheng
cs.AI

Abstract

I recenti progressi nei Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno esteso le loro capacità alla comprensione dei video. Tuttavia, questi modelli sono spesso afflitti da "allucinazioni", in cui viene generato contenuto irrilevante o insensato, deviando dal contesto effettivo del video. Questo lavoro introduce VideoHallucer, il primo benchmark completo per il rilevamento delle allucinazioni nei modelli linguistici-video di grande scala (LVLMs). VideoHallucer categorizza le allucinazioni in due tipi principali: intrinseche ed estrinseche, offrendo ulteriori sottocategorie per un'analisi dettagliata, tra cui allucinazioni oggetto-relazione, temporali, dettagli semantici, fatti estrinseci e non-fatti estrinseci. Adottiamo un metodo binario avversariale di VideoQA per una valutazione completa, in cui coppie di domande di base e allucinate vengono create strategicamente. Valutando undici LVLMs su VideoHallucer, riveliamo che i) la maggior parte dei modelli attuali presenta problemi significativi con le allucinazioni; ii) sebbene il ridimensionamento dei dataset e dei parametri migliori la capacità dei modelli di rilevare indizi visivi di base e controfattuali, offre un beneficio limitato per il rilevamento delle allucinazioni fattuali estrinseche; iii) i modelli esistenti sono più abili nel rilevare fatti che nell'identificare allucinazioni. Come sottoprodotto, queste analisi guidano ulteriormente lo sviluppo del nostro framework self-PEP, ottenendo un miglioramento medio del 5,38% nella resistenza alle allucinazioni in tutte le architetture dei modelli.
English
Recent advancements in Multimodal Large Language Models (MLLMs) have extended their capabilities to video understanding. Yet, these models are often plagued by "hallucinations", where irrelevant or nonsensical content is generated, deviating from the actual video context. This work introduces VideoHallucer, the first comprehensive benchmark for hallucination detection in large video-language models (LVLMs). VideoHallucer categorizes hallucinations into two main types: intrinsic and extrinsic, offering further subcategories for detailed analysis, including object-relation, temporal, semantic detail, extrinsic factual, and extrinsic non-factual hallucinations. We adopt an adversarial binary VideoQA method for comprehensive evaluation, where pairs of basic and hallucinated questions are crafted strategically. By evaluating eleven LVLMs on VideoHallucer, we reveal that i) the majority of current models exhibit significant issues with hallucinations; ii) while scaling datasets and parameters improves models' ability to detect basic visual cues and counterfactuals, it provides limited benefit for detecting extrinsic factual hallucinations; iii) existing models are more adept at detecting facts than identifying hallucinations. As a byproduct, these analyses further instruct the development of our self-PEP framework, achieving an average of 5.38% improvement in hallucination resistance across all model architectures.
PDF262February 8, 2026