ChatPaper.aiChatPaper

Mais Pensamento, Menos Visão? Avaliando a Alucinação Amplificada em Modelos de Raciocínio Multimodal

More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models

May 23, 2025
Autores: Chengzhi Liu, Zhongxing Xu, Qingyue Wei, Juncheng Wu, James Zou, Xin Eric Wang, Yuyin Zhou, Sheng Liu
cs.AI

Resumo

O poder computacional em tempo de teste capacitou modelos de linguagem multimodal de grande escala a gerar cadeias de raciocínio estendidas, resultando em um desempenho forte em tarefas como raciocínio matemático multimodal. No entanto, essa capacidade aprimorada de raciocínio frequentemente vem acompanhada de um aumento na alucinação: à medida que as gerações se tornam mais longas, os modelos tendem a se afastar do conteúdo baseado em imagens e a depender mais fortemente de prioridades linguísticas. A análise de atenção mostra que cadeias de raciocínio mais longas levam a uma redução no foco nas entradas visuais, o que contribui para a alucinação. Para estudar sistematicamente esse fenômeno, introduzimos o RH-AUC, uma métrica que quantifica como a precisão de percepção de um modelo muda com o comprimento do raciocínio, permitindo-nos avaliar se o modelo preserva o fundamento visual durante o raciocínio. Também lançamos o RH-Bench, um benchmark diagnóstico que abrange uma variedade de tarefas multimodais, projetado para avaliar a relação entre a capacidade de raciocínio e a alucinação. Nossa análise revela que (i) modelos maiores geralmente alcançam um melhor equilíbrio entre raciocínio e percepção, e (ii) esse equilíbrio é influenciado mais pelos tipos e domínios dos dados de treinamento do que pelo seu volume geral. Essas descobertas destacam a importância de frameworks de avaliação que consideram conjuntamente a qualidade do raciocínio e a fidelidade perceptiva.
English
Test-time compute has empowered multimodal large language models to generate extended reasoning chains, yielding strong performance on tasks such as multimodal math reasoning. However, this improved reasoning ability often comes with increased hallucination: as generations become longer, models tend to drift away from image-grounded content and rely more heavily on language priors. Attention analysis shows that longer reasoning chains lead to reduced focus on visual inputs, which contributes to hallucination. To systematically study this phenomenon, we introduce RH-AUC, a metric that quantifies how a model's perception accuracy changes with reasoning length, allowing us to evaluate whether the model preserves visual grounding during reasoning. We also release RH-Bench, a diagnostic benchmark that spans a variety of multimodal tasks, designed to assess the trade-off between reasoning ability and hallucination. Our analysis reveals that (i) larger models typically achieve a better balance between reasoning and perception, and (ii) this balance is influenced more by the types and domains of training data than by its overall volume. These findings underscore the importance of evaluation frameworks that jointly consider both reasoning quality and perceptual fidelity.
PDF132June 2, 2025