Cuando la Semántica Engaña a la Visión: Mitigación de Alucinaciones en Modelos Multimodales Grandes para la Detección y Comprensión de Texto en Escenas
When Semantics Mislead Vision: Mitigating Large Multimodal Models Hallucinations in Scene Text Spotting and Understanding
June 5, 2025
Autores: Yan Shu, Hangui Lin, Yexin Liu, Yan Zhang, Gangyan Zeng, Yan Li, Yu Zhou, Ser-Nam Lim, Harry Yang, Nicu Sebe
cs.AI
Resumen
Los Modelos Multimodales Grandes (LMMs) han logrado avances impresionantes en la percepción visual y el razonamiento. Sin embargo, cuando se enfrentan a texto de escena visualmente ambiguo o no semántico, a menudo tienen dificultades para detectar y comprender con precisión el contenido, generando frecuentemente respuestas semánticamente plausibles pero visualmente incorrectas, lo que denominamos alucinación semántica. En este trabajo, investigamos las causas subyacentes de la alucinación semántica e identificamos un hallazgo clave: las capas Transformer en los LMM con un enfoque de atención más fuerte en las regiones de texto de escena son menos propensas a producir alucinaciones semánticas. Por lo tanto, proponemos un marco de mitigación de alucinación semántica sin necesidad de entrenamiento, que consta de dos componentes clave: (1) ZoomText, una estrategia de grueso a fino que identifica regiones potenciales de texto sin detectores externos; y (2) Corrección de Capa Fundamentada, que aprovecha de manera adaptativa las representaciones internas de las capas menos propensas a la alucinación para guiar la decodificación, corrigiendo las salidas alucinadas en muestras no semánticas mientras preserva la semántica de las muestras significativas. Para permitir una evaluación rigurosa, presentamos TextHalu-Bench, un punto de referencia que abarca más de 1,730 muestras que incluyen casos semánticos y no semánticos, con pares de preguntas y respuestas curadas manualmente diseñadas para sondear las alucinaciones del modelo. Experimentos extensos demuestran que nuestro método no solo mitiga efectivamente la alucinación semántica, sino que también logra un rendimiento sólido en puntos de referencia públicos para la detección y comprensión de texto en escenas.
English
Large Multimodal Models (LMMs) have achieved impressive progress in visual
perception and reasoning. However, when confronted with visually ambiguous or
non-semantic scene text, they often struggle to accurately spot and understand
the content, frequently generating semantically plausible yet visually
incorrect answers, which we refer to as semantic hallucination. In this work,
we investigate the underlying causes of semantic hallucination and identify a
key finding: Transformer layers in LLM with stronger attention focus on scene
text regions are less prone to producing semantic hallucinations. Thus, we
propose a training-free semantic hallucination mitigation framework comprising
two key components: (1) ZoomText, a coarse-to-fine strategy that identifies
potential text regions without external detectors; and (2) Grounded Layer
Correction, which adaptively leverages the internal representations from layers
less prone to hallucination to guide decoding, correcting hallucinated outputs
for non-semantic samples while preserving the semantics of meaningful ones. To
enable rigorous evaluation, we introduce TextHalu-Bench, a benchmark of over
1,730 samples spanning both semantic and non-semantic cases, with manually
curated question-answer pairs designed to probe model hallucinations. Extensive
experiments demonstrate that our method not only effectively mitigates semantic
hallucination but also achieves strong performance on public benchmarks for
scene text spotting and understanding.