Больше размышлений, меньше визуализации? Оценка усиленных галлюцинаций в мультимодальных моделях рассуждений
More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models
May 23, 2025
Авторы: Chengzhi Liu, Zhongxing Xu, Qingyue Wei, Juncheng Wu, James Zou, Xin Eric Wang, Yuyin Zhou, Sheng Liu
cs.AI
Аннотация
Вычислительные ресурсы, используемые во время тестирования, позволили мультимодальным большим языковым моделям генерировать расширенные цепочки рассуждений, что привело к высоким результатам в таких задачах, как мультимодальное математическое рассуждение. Однако это улучшение способности к рассуждению часто сопровождается увеличением числа галлюцинаций: по мере увеличения длины генерируемых текстов модели склонны отходить от контента, основанного на изображениях, и больше полагаться на языковые априорные знания. Анализ внимания показывает, что более длинные цепочки рассуждений приводят к снижению фокуса на визуальных данных, что способствует возникновению галлюцинаций. Для систематического изучения этого явления мы вводим метрику RH-AUC, которая количественно оценивает, как точность восприятия модели изменяется с увеличением длины рассуждений, что позволяет нам оценить, сохраняет ли модель визуальную привязку в процессе рассуждений. Мы также представляем RH-Bench, диагностический набор данных, охватывающий различные мультимодальные задачи, предназначенный для оценки компромисса между способностью к рассуждению и галлюцинациями. Наш анализ показывает, что (i) более крупные модели обычно достигают лучшего баланса между рассуждением и восприятием, и (ii) этот баланс больше зависит от типов и областей обучающих данных, чем от их общего объема. Эти результаты подчеркивают важность оценочных подходов, которые совместно учитывают как качество рассуждений, так и точность восприятия.
English
Test-time compute has empowered multimodal large language models to generate
extended reasoning chains, yielding strong performance on tasks such as
multimodal math reasoning. However, this improved reasoning ability often comes
with increased hallucination: as generations become longer, models tend to
drift away from image-grounded content and rely more heavily on language
priors. Attention analysis shows that longer reasoning chains lead to reduced
focus on visual inputs, which contributes to hallucination. To systematically
study this phenomenon, we introduce RH-AUC, a metric that quantifies how a
model's perception accuracy changes with reasoning length, allowing us to
evaluate whether the model preserves visual grounding during reasoning. We also
release RH-Bench, a diagnostic benchmark that spans a variety of multimodal
tasks, designed to assess the trade-off between reasoning ability and
hallucination. Our analysis reveals that (i) larger models typically achieve a
better balance between reasoning and perception, and (ii) this balance is
influenced more by the types and domains of training data than by its overall
volume. These findings underscore the importance of evaluation frameworks that
jointly consider both reasoning quality and perceptual fidelity.