Quando a Semântica Engana a Visão: Mitigando Alucinações em Modelos Multimodais de Grande Escala na Detecção e Compreensão de Texto em Cenas
When Semantics Mislead Vision: Mitigating Large Multimodal Models Hallucinations in Scene Text Spotting and Understanding
June 5, 2025
Autores: Yan Shu, Hangui Lin, Yexin Liu, Yan Zhang, Gangyan Zeng, Yan Li, Yu Zhou, Ser-Nam Lim, Harry Yang, Nicu Sebe
cs.AI
Resumo
Modelos Multimodais de Grande Escala (LMMs) têm alcançado progressos impressionantes em percepção visual e raciocínio. No entanto, quando confrontados com textos de cena visualmente ambíguos ou não semânticos, eles frequentemente lutam para identificar e compreender o conteúdo com precisão, gerando respostas semanticamente plausíveis, mas visualmente incorretas, o que chamamos de alucinação semântica. Neste trabalho, investigamos as causas subjacentes da alucinação semântica e identificamos uma descoberta crucial: camadas de Transformers em LLMs com foco de atenção mais forte em regiões de texto de cena são menos propensas a produzir alucinações semânticas. Assim, propomos um framework de mitigação de alucinação semântica sem necessidade de treinamento, composto por dois componentes principais: (1) ZoomText, uma estratégia de granularidade grossa para fina que identifica regiões potenciais de texto sem detectores externos; e (2) Correção de Camada Fundamentada, que adaptativamente aproveita as representações internas de camadas menos propensas à alucinação para guiar a decodificação, corrigindo saídas alucinadas para amostras não semânticas, enquanto preserva a semântica das amostras significativas. Para permitir uma avaliação rigorosa, introduzimos o TextHalu-Bench, um benchmark com mais de 1.730 amostras abrangendo casos semânticos e não semânticos, com pares de perguntas e respostas cuidadosamente curados para sondar alucinações do modelo. Experimentos extensivos demonstram que nosso método não apenas mitiga efetivamente a alucinação semântica, mas também alcança um desempenho forte em benchmarks públicos para detecção e compreensão de texto de cena.
English
Large Multimodal Models (LMMs) have achieved impressive progress in visual
perception and reasoning. However, when confronted with visually ambiguous or
non-semantic scene text, they often struggle to accurately spot and understand
the content, frequently generating semantically plausible yet visually
incorrect answers, which we refer to as semantic hallucination. In this work,
we investigate the underlying causes of semantic hallucination and identify a
key finding: Transformer layers in LLM with stronger attention focus on scene
text regions are less prone to producing semantic hallucinations. Thus, we
propose a training-free semantic hallucination mitigation framework comprising
two key components: (1) ZoomText, a coarse-to-fine strategy that identifies
potential text regions without external detectors; and (2) Grounded Layer
Correction, which adaptively leverages the internal representations from layers
less prone to hallucination to guide decoding, correcting hallucinated outputs
for non-semantic samples while preserving the semantics of meaningful ones. To
enable rigorous evaluation, we introduce TextHalu-Bench, a benchmark of over
1,730 samples spanning both semantic and non-semantic cases, with manually
curated question-answer pairs designed to probe model hallucinations. Extensive
experiments demonstrate that our method not only effectively mitigates semantic
hallucination but also achieves strong performance on public benchmarks for
scene text spotting and understanding.