ELV-Halluc : Évaluation des hallucinations de l'agrégation sémantique dans la compréhension de vidéos longues
ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding
August 29, 2025
papers.authors: Hao Lu, Jiahao Wang, Yaolun Zhang, Ruohui Wang, Xuanyu Zheng, Yepeng Tang, Dahua Lin, Lewei Lu
cs.AI
papers.abstract
Les modèles de langage multimodaux pour la vidéo (Video-MLLMs) ont réalisé des progrès remarquables dans la compréhension vidéo. Cependant, ils restent vulnérables à la génération de contenu hallucinatoire, incohérent ou sans rapport avec les entrées vidéo. Les benchmarks précédents sur les hallucinations vidéo se concentrent principalement sur les vidéos courtes. Ils attribuent les hallucinations à des facteurs tels que les fortes préconceptions linguistiques, les images manquantes ou les biais vision-langage introduits par l'encodeur visuel. Bien que ces causes expliquent en effet la plupart des hallucinations dans les vidéos courtes, elles simplifient encore trop l'origine des hallucinations. Parfois, les modèles génèrent des sorties incorrectes mais avec une sémantique correcte au niveau des images. Nous qualifions ce type d'hallucination d'Hallucination d'Aggrégation Sémantique (SAH), qui survient lors du processus d'agrégation de la sémantique au niveau des images en groupes sémantiques au niveau des événements. Étant donné que la SAH devient particulièrement critique dans les vidéos longues en raison de la complexité sémantique accrue à travers plusieurs événements, il est essentiel de séparer et d'étudier en profondeur les causes de ce type d'hallucination. Pour résoudre ces problèmes, nous introduisons ELV-Halluc, le premier benchmark dédié aux hallucinations dans les vidéos longues, permettant une investigation systématique de la SAH. Nos expériences confirment l'existence de la SAH et montrent qu'elle augmente avec la complexité sémantique. De plus, nous constatons que les modèles sont plus sujets à la SAH sur des sémantiques en évolution rapide. Par ailleurs, nous discutons des approches potentielles pour atténuer la SAH. Nous démontrons que la stratégie d'encodage positionnel contribue à atténuer la SAH, et nous adoptons en outre la stratégie DPO pour améliorer la capacité du modèle à distinguer la sémantique au sein et entre les événements. Pour soutenir cela, nous constituons un ensemble de données de 8 000 paires de données adverses et obtenons des améliorations à la fois sur ELV-Halluc et Video-MME, y compris une réduction substantielle de 27,7 % du taux de SAH.
English
Video multimodal large language models (Video-MLLMs) have achieved remarkable
progress in video understanding. However, they remain vulnerable to
hallucination-producing content inconsistent with or unrelated to video inputs.
Previous video hallucination benchmarks primarily focus on short-videos. They
attribute hallucinations to factors such as strong language priors, missing
frames, or vision-language biases introduced by the visual encoder. While these
causes indeed account for most hallucinations in short videos, they still
oversimplify the cause of hallucinations. Sometimes, models generate incorrect
outputs but with correct frame-level semantics. We refer to this type of
hallucination as Semantic Aggregation Hallucination (SAH), which arises during
the process of aggregating frame-level semantics into event-level semantic
groups. Given that SAH becomes particularly critical in long videos due to
increased semantic complexity across multiple events, it is essential to
separate and thoroughly investigate the causes of this type of hallucination.
To address the above issues, we introduce ELV-Halluc, the first benchmark
dedicated to long-video hallucination, enabling a systematic investigation of
SAH. Our experiments confirm the existence of SAH and show that it increases
with semantic complexity. Additionally, we find that models are more prone to
SAH on rapidly changing semantics. Moreover, we discuss potential approaches to
mitigate SAH. We demonstrate that positional encoding strategy contributes to
alleviating SAH, and further adopt DPO strategy to enhance the model's ability
to distinguish semantics within and across events. To support this, we curate a
dataset of 8K adversarial data pairs and achieve improvements on both
ELV-Halluc and Video-MME, including a substantial 27.7% reduction in SAH ratio.