Quand la sémantique égare la vision : Atténuer les hallucinations des grands modèles multimodaux dans la détection et la compréhension du texte scénique
When Semantics Mislead Vision: Mitigating Large Multimodal Models Hallucinations in Scene Text Spotting and Understanding
June 5, 2025
Auteurs: Yan Shu, Hangui Lin, Yexin Liu, Yan Zhang, Gangyan Zeng, Yan Li, Yu Zhou, Ser-Nam Lim, Harry Yang, Nicu Sebe
cs.AI
Résumé
Les modèles multimodaux de grande taille (LMMs) ont réalisé des progrès impressionnants en perception visuelle et en raisonnement. Cependant, lorsqu'ils sont confrontés à du texte de scène visuellement ambigu ou non sémantique, ils ont souvent du mal à repérer et à comprendre le contenu avec précision, générant fréquemment des réponses sémantiquement plausibles mais visuellement incorrectes, ce que nous appelons hallucination sémantique. Dans ce travail, nous étudions les causes sous-jacentes de l'hallucination sémantique et identifions un constat clé : les couches Transformer dans les LLM qui accordent une attention plus forte aux régions de texte de scène sont moins susceptibles de produire des hallucinations sémantiques. Ainsi, nous proposons un cadre de mitigation de l'hallucination sémantique sans entraînement, comprenant deux composants clés : (1) ZoomText, une stratégie grossière à fine qui identifie les régions de texte potentielles sans détecteurs externes ; et (2) Grounded Layer Correction, qui exploite de manière adaptative les représentations internes des couches moins sujettes à l'hallucination pour guider le décodage, corrigeant les sorties hallucinées pour les échantillons non sémantiques tout en préservant la sémantique des échantillons significatifs. Pour permettre une évaluation rigoureuse, nous introduisons TextHalu-Bench, un benchmark de plus de 1 730 échantillons couvrant à la fois des cas sémantiques et non sémantiques, avec des paires question-réponse soigneusement conçues pour explorer les hallucinations des modèles. Des expériences approfondies démontrent que notre méthode non seulement atténue efficacement l'hallucination sémantique, mais obtient également de solides performances sur les benchmarks publics pour la détection et la compréhension du texte de scène.
English
Large Multimodal Models (LMMs) have achieved impressive progress in visual
perception and reasoning. However, when confronted with visually ambiguous or
non-semantic scene text, they often struggle to accurately spot and understand
the content, frequently generating semantically plausible yet visually
incorrect answers, which we refer to as semantic hallucination. In this work,
we investigate the underlying causes of semantic hallucination and identify a
key finding: Transformer layers in LLM with stronger attention focus on scene
text regions are less prone to producing semantic hallucinations. Thus, we
propose a training-free semantic hallucination mitigation framework comprising
two key components: (1) ZoomText, a coarse-to-fine strategy that identifies
potential text regions without external detectors; and (2) Grounded Layer
Correction, which adaptively leverages the internal representations from layers
less prone to hallucination to guide decoding, correcting hallucinated outputs
for non-semantic samples while preserving the semantics of meaningful ones. To
enable rigorous evaluation, we introduce TextHalu-Bench, a benchmark of over
1,730 samples spanning both semantic and non-semantic cases, with manually
curated question-answer pairs designed to probe model hallucinations. Extensive
experiments demonstrate that our method not only effectively mitigates semantic
hallucination but also achieves strong performance on public benchmarks for
scene text spotting and understanding.