Wenn Semantik die Sicht trübt: Minderung von Halluzinationen in großen multimodalen Modellen bei der Erkennung und Interpretation von Szenentexten
When Semantics Mislead Vision: Mitigating Large Multimodal Models Hallucinations in Scene Text Spotting and Understanding
June 5, 2025
Autoren: Yan Shu, Hangui Lin, Yexin Liu, Yan Zhang, Gangyan Zeng, Yan Li, Yu Zhou, Ser-Nam Lim, Harry Yang, Nicu Sebe
cs.AI
Zusammenfassung
Große multimodale Modelle (LMMs) haben beeindruckende Fortschritte in der visuellen Wahrnehmung und im logischen Denken erzielt. Wenn sie jedoch mit visuell mehrdeutigem oder nicht-semantischem Szenentext konfrontiert werden, haben sie oft Schwierigkeiten, den Inhalt präzise zu erkennen und zu verstehen, und erzeugen häufig semantisch plausibel, aber visuell falsche Antworten, was wir als semantische Halluzination bezeichnen. In dieser Arbeit untersuchen wir die zugrunde liegenden Ursachen für semantische Halluzinationen und identifizieren eine zentrale Erkenntnis: Transformer-Schichten in LLMs, die eine stärkere Aufmerksamkeit auf Szenentextregionen richten, neigen weniger dazu, semantische Halluzinationen zu erzeugen. Daher schlagen wir ein trainingsfreies Framework zur Minderung semantischer Halluzinationen vor, das aus zwei Schlüsselkomponenten besteht: (1) ZoomText, eine Strategie vom Groben zum Feinen, die potenzielle Textregionen ohne externe Detektoren identifiziert; und (2) Grounded Layer Correction, das adaptiv interne Repräsentationen aus Schichten, die weniger zu Halluzinationen neigen, nutzt, um die Decodierung zu steuern und halluzinierte Ausgaben für nicht-semantische Proben zu korrigieren, während die Semantik bedeutungsvoller Proben erhalten bleibt. Um eine rigorose Bewertung zu ermöglichen, führen wir TextHalu-Bench ein, einen Benchmark mit über 1.730 Proben, die sowohl semantische als auch nicht-semantische Fälle abdecken, mit manuell kuratierten Frage-Antwort-Paaren, die darauf ausgelegt sind, Modellhalluzinationen zu untersuchen. Umfangreiche Experimente zeigen, dass unsere Methode nicht nur effektiv semantische Halluzinationen mindert, sondern auch starke Leistungen auf öffentlichen Benchmarks für die Erkennung und das Verständnis von Szenentext erzielt.
English
Large Multimodal Models (LMMs) have achieved impressive progress in visual
perception and reasoning. However, when confronted with visually ambiguous or
non-semantic scene text, they often struggle to accurately spot and understand
the content, frequently generating semantically plausible yet visually
incorrect answers, which we refer to as semantic hallucination. In this work,
we investigate the underlying causes of semantic hallucination and identify a
key finding: Transformer layers in LLM with stronger attention focus on scene
text regions are less prone to producing semantic hallucinations. Thus, we
propose a training-free semantic hallucination mitigation framework comprising
two key components: (1) ZoomText, a coarse-to-fine strategy that identifies
potential text regions without external detectors; and (2) Grounded Layer
Correction, which adaptively leverages the internal representations from layers
less prone to hallucination to guide decoding, correcting hallucinated outputs
for non-semantic samples while preserving the semantics of meaningful ones. To
enable rigorous evaluation, we introduce TextHalu-Bench, a benchmark of over
1,730 samples spanning both semantic and non-semantic cases, with manually
curated question-answer pairs designed to probe model hallucinations. Extensive
experiments demonstrate that our method not only effectively mitigates semantic
hallucination but also achieves strong performance on public benchmarks for
scene text spotting and understanding.