Wanneer Semantiek het Zicht Misleidt: Het Verminderen van Hallucinaties in Grote Multimodale Modellen bij het Detecteren en Begrijpen van Scènetekst

Samenvatting

Grote Multimodale Modellen (LMMs) hebben indrukwekkende vooruitgang geboekt in visuele waarneming en redenering. Wanneer ze echter worden geconfronteerd met visueel dubbelzinnige of niet-semantische scènetekst, hebben ze vaak moeite om de inhoud nauwkeurig te herkennen en te begrijpen, waarbij ze vaak semantisch plausibele maar visueel incorrecte antwoorden genereren, wat we semantische hallucinatie noemen. In dit werk onderzoeken we de onderliggende oorzaken van semantische hallucinatie en identificeren we een belangrijk inzicht: Transformer-lagen in LLM met een sterkere aandacht voor scènetekstregio's zijn minder gevoelig voor het produceren van semantische hallucinaties. Daarom stellen we een trainingsvrij raamwerk voor om semantische hallucinatie te verminderen, bestaande uit twee belangrijke componenten: (1) ZoomText, een grof-naar-fijn strategie die potentiële tekstregio's identificeert zonder externe detectoren; en (2) Grounded Layer Correction, dat adaptief gebruikmaakt van de interne representaties van lagen die minder gevoelig zijn voor hallucinatie om het decoderen te begeleiden, waardoor hallucinerende uitvoer voor niet-semantische voorbeelden wordt gecorrigeerd terwijl de semantiek van betekenisvolle voorbeelden behouden blijft. Om een rigoureuze evaluatie mogelijk te maken, introduceren we TextHalu-Bench, een benchmark van meer dan 1.730 voorbeelden die zowel semantische als niet-semantische gevallen omvat, met handmatig samengestelde vraag-antwoordparen die zijn ontworpen om modelhallucinaties te onderzoeken. Uitgebreide experimenten tonen aan dat onze methode niet alleen effectief semantische hallucinatie vermindert, maar ook sterke prestaties levert op openbare benchmarks voor het herkennen en begrijpen van scènetekst.

English

Large Multimodal Models (LMMs) have achieved impressive progress in visual perception and reasoning. However, when confronted with visually ambiguous or non-semantic scene text, they often struggle to accurately spot and understand the content, frequently generating semantically plausible yet visually incorrect answers, which we refer to as semantic hallucination. In this work, we investigate the underlying causes of semantic hallucination and identify a key finding: Transformer layers in LLM with stronger attention focus on scene text regions are less prone to producing semantic hallucinations. Thus, we propose a training-free semantic hallucination mitigation framework comprising two key components: (1) ZoomText, a coarse-to-fine strategy that identifies potential text regions without external detectors; and (2) Grounded Layer Correction, which adaptively leverages the internal representations from layers less prone to hallucination to guide decoding, correcting hallucinated outputs for non-semantic samples while preserving the semantics of meaningful ones. To enable rigorous evaluation, we introduce TextHalu-Bench, a benchmark of over 1,730 samples spanning both semantic and non-semantic cases, with manually curated question-answer pairs designed to probe model hallucinations. Extensive experiments demonstrate that our method not only effectively mitigates semantic hallucination but also achieves strong performance on public benchmarks for scene text spotting and understanding.

Wanneer Semantiek het Zicht Misleidt: Het Verminderen van Hallucinaties in Grote Multimodale Modellen bij het Detecteren en Begrijpen van Scènetekst

When Semantics Mislead Vision: Mitigating Large Multimodal Models Hallucinations in Scene Text Spotting and Understanding

Samenvatting

Support