ChatPaper.aiChatPaper

Plus de réflexion, moins de vision ? Évaluation de l'hallucination amplifiée dans les modèles de raisonnement multimodal

More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models

May 23, 2025
papers.authors: Chengzhi Liu, Zhongxing Xu, Qingyue Wei, Juncheng Wu, James Zou, Xin Eric Wang, Yuyin Zhou, Sheng Liu
cs.AI

papers.abstract

Le calcul au moment du test a permis aux grands modèles de langage multimodaux de générer des chaînes de raisonnement étendues, obtenant ainsi de solides performances sur des tâches telles que le raisonnement mathématique multimodal. Cependant, cette amélioration de la capacité de raisonnement s'accompagne souvent d'une augmentation des hallucinations : à mesure que les générations deviennent plus longues, les modèles ont tendance à s'éloigner du contenu ancré dans l'image et à s'appuyer davantage sur les connaissances linguistiques préalables. L'analyse de l'attention montre que des chaînes de raisonnement plus longues entraînent une réduction de la concentration sur les entrées visuelles, ce qui contribue aux hallucinations. Pour étudier systématiquement ce phénomène, nous introduisons RH-AUC, une métrique qui quantifie comment la précision de perception d'un modèle évolue avec la longueur du raisonnement, nous permettant ainsi d'évaluer si le modèle préserve l'ancrage visuel pendant le raisonnement. Nous publions également RH-Bench, un benchmark diagnostique couvrant une variété de tâches multimodales, conçu pour évaluer le compromis entre la capacité de raisonnement et les hallucinations. Notre analyse révèle que (i) les modèles plus grands atteignent généralement un meilleur équilibre entre raisonnement et perception, et (ii) cet équilibre est davantage influencé par les types et domaines des données d'entraînement que par leur volume global. Ces résultats soulignent l'importance des cadres d'évaluation qui prennent en compte à la fois la qualité du raisonnement et la fidélité perceptuelle.
English
Test-time compute has empowered multimodal large language models to generate extended reasoning chains, yielding strong performance on tasks such as multimodal math reasoning. However, this improved reasoning ability often comes with increased hallucination: as generations become longer, models tend to drift away from image-grounded content and rely more heavily on language priors. Attention analysis shows that longer reasoning chains lead to reduced focus on visual inputs, which contributes to hallucination. To systematically study this phenomenon, we introduce RH-AUC, a metric that quantifies how a model's perception accuracy changes with reasoning length, allowing us to evaluate whether the model preserves visual grounding during reasoning. We also release RH-Bench, a diagnostic benchmark that spans a variety of multimodal tasks, designed to assess the trade-off between reasoning ability and hallucination. Our analysis reveals that (i) larger models typically achieve a better balance between reasoning and perception, and (ii) this balance is influenced more by the types and domains of training data than by its overall volume. These findings underscore the importance of evaluation frameworks that jointly consider both reasoning quality and perceptual fidelity.
PDF142June 2, 2025