Quando la Semantica Trae in Errore la Visione: Mitigazione delle Allucinazioni nei Modelli Multimodali di Grande Scala per il Riconoscimento e la Comprensione del Testo nelle Scene
When Semantics Mislead Vision: Mitigating Large Multimodal Models Hallucinations in Scene Text Spotting and Understanding
June 5, 2025
Autori: Yan Shu, Hangui Lin, Yexin Liu, Yan Zhang, Gangyan Zeng, Yan Li, Yu Zhou, Ser-Nam Lim, Harry Yang, Nicu Sebe
cs.AI
Abstract
I Large Multimodal Models (LMM) hanno ottenuto progressi impressionanti nella percezione visiva e nel ragionamento. Tuttavia, quando si confrontano con testo di scena visivamente ambiguo o non semantico, spesso faticano a individuare e comprendere accuratamente il contenuto, generando frequentemente risposte semanticamente plausibili ma visivamente errate, un fenomeno che definiamo come allucinazione semantica. In questo lavoro, indaghiamo le cause sottostanti dell'allucinazione semantica e identifichiamo un risultato chiave: i livelli Transformer nei LLM con un'attenzione più forte sulle regioni di testo di scena sono meno inclini a produrre allucinazioni semantiche. Pertanto, proponiamo un framework di mitigazione dell'allucinazione semantica senza necessità di addestramento, composto da due componenti principali: (1) ZoomText, una strategia da grossolana a fine che identifica potenziali regioni di testo senza l'uso di rilevatori esterni; e (2) Grounded Layer Correction, che sfrutta in modo adattivo le rappresentazioni interne provenienti da livelli meno inclini all'allucinazione per guidare la decodifica, correggendo gli output allucinati per campioni non semantici preservando al contempo la semantica di quelli significativi. Per consentire una valutazione rigorosa, introduciamo TextHalu-Bench, un benchmark di oltre 1.730 campioni che coprono sia casi semantici che non semantici, con coppie domanda-risposta curate manualmente progettate per sondare le allucinazioni del modello. Esperimenti estensivi dimostrano che il nostro metodo non solo mitiga efficacemente l'allucinazione semantica, ma raggiunge anche prestazioni solide su benchmark pubblici per l'individuazione e la comprensione del testo di scena.
English
Large Multimodal Models (LMMs) have achieved impressive progress in visual
perception and reasoning. However, when confronted with visually ambiguous or
non-semantic scene text, they often struggle to accurately spot and understand
the content, frequently generating semantically plausible yet visually
incorrect answers, which we refer to as semantic hallucination. In this work,
we investigate the underlying causes of semantic hallucination and identify a
key finding: Transformer layers in LLM with stronger attention focus on scene
text regions are less prone to producing semantic hallucinations. Thus, we
propose a training-free semantic hallucination mitigation framework comprising
two key components: (1) ZoomText, a coarse-to-fine strategy that identifies
potential text regions without external detectors; and (2) Grounded Layer
Correction, which adaptively leverages the internal representations from layers
less prone to hallucination to guide decoding, correcting hallucinated outputs
for non-semantic samples while preserving the semantics of meaningful ones. To
enable rigorous evaluation, we introduce TextHalu-Bench, a benchmark of over
1,730 samples spanning both semantic and non-semantic cases, with manually
curated question-answer pairs designed to probe model hallucinations. Extensive
experiments demonstrate that our method not only effectively mitigates semantic
hallucination but also achieves strong performance on public benchmarks for
scene text spotting and understanding.