Когда семантика вводит зрение в заблуждение: смягчение галлюцинаций в крупных мультимодальных моделях при распознавании и понимании текста в сценах
When Semantics Mislead Vision: Mitigating Large Multimodal Models Hallucinations in Scene Text Spotting and Understanding
June 5, 2025
Авторы: Yan Shu, Hangui Lin, Yexin Liu, Yan Zhang, Gangyan Zeng, Yan Li, Yu Zhou, Ser-Nam Lim, Harry Yang, Nicu Sebe
cs.AI
Аннотация
Крупные мультимодальные модели (LMMs) достигли значительных успехов в области визуального восприятия и логического анализа. Однако, сталкиваясь с визуально неоднозначным или не семантическим текстом в сценах, они часто испытывают трудности с точным распознаванием и пониманием содержания, нередко генерируя семантически правдоподобные, но визуально ошибочные ответы, что мы называем семантической галлюцинацией. В данной работе мы исследуем основные причины семантической галлюцинации и выявляем ключевой вывод: слои трансформеров в LMM с более сильным вниманием к областям текста в сценах менее склонны к генерации семантических галлюцинаций. Таким образом, мы предлагаем фреймворк для смягчения семантической галлюцинации, не требующий дополнительного обучения, который включает два ключевых компонента: (1) ZoomText — стратегию от грубого к точному, которая идентифицирует потенциальные области текста без использования внешних детекторов; и (2) Grounded Layer Correction — метод, который адаптивно использует внутренние представления из слоев, менее склонных к галлюцинациям, для управления декодированием, исправляя галлюцинированные выходы для не семантических примеров, сохраняя при этом семантику значимых. Для обеспечения строгой оценки мы представляем TextHalu-Bench — бенчмарк, содержащий более 1730 примеров, охватывающих как семантические, так и не семантические случаи, с тщательно подобранными парами вопрос-ответ, предназначенными для исследования галлюцинаций моделей. Многочисленные эксперименты демонстрируют, что наш метод не только эффективно смягчает семантическую галлюцинацию, но и показывает высокие результаты на публичных бенчмарках для распознавания и понимания текста в сценах.
English
Large Multimodal Models (LMMs) have achieved impressive progress in visual
perception and reasoning. However, when confronted with visually ambiguous or
non-semantic scene text, they often struggle to accurately spot and understand
the content, frequently generating semantically plausible yet visually
incorrect answers, which we refer to as semantic hallucination. In this work,
we investigate the underlying causes of semantic hallucination and identify a
key finding: Transformer layers in LLM with stronger attention focus on scene
text regions are less prone to producing semantic hallucinations. Thus, we
propose a training-free semantic hallucination mitigation framework comprising
two key components: (1) ZoomText, a coarse-to-fine strategy that identifies
potential text regions without external detectors; and (2) Grounded Layer
Correction, which adaptively leverages the internal representations from layers
less prone to hallucination to guide decoding, correcting hallucinated outputs
for non-semantic samples while preserving the semantics of meaningful ones. To
enable rigorous evaluation, we introduce TextHalu-Bench, a benchmark of over
1,730 samples spanning both semantic and non-semantic cases, with manually
curated question-answer pairs designed to probe model hallucinations. Extensive
experiments demonstrate that our method not only effectively mitigates semantic
hallucination but also achieves strong performance on public benchmarks for
scene text spotting and understanding.