Meer Denken, Minder Zien? Een Evaluatie van Versterkte Hallucinaties in Multimodale Redeneermodellen
More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models
May 23, 2025
Auteurs: Chengzhi Liu, Zhongxing Xu, Qingyue Wei, Juncheng Wu, James Zou, Xin Eric Wang, Yuyin Zhou, Sheng Liu
cs.AI
Samenvatting
Test-time compute heeft multimodale grote taalmodellen in staat gesteld om uitgebreide redeneerketens te genereren, wat resulteert in sterke prestaties bij taken zoals multimodale wiskundige redenering. Deze verbeterde redeneervaardigheid gaat echter vaak gepaard met meer hallucinatie: naarmate de generaties langer worden, neigen modellen af te drijven van op afbeeldingen gebaseerde inhoud en meer te vertrouwen op taalpriors. Analyse van aandacht laat zien dat langere redeneerketens leiden tot verminderde focus op visuele inputs, wat bijdraagt aan hallucinatie. Om dit fenomeen systematisch te bestuderen, introduceren we RH-AUC, een metriek die kwantificeert hoe de perceptienauwkeurigheid van een model verandert met de redeneerlengte, waardoor we kunnen evalueren of het model visuele verankering behoudt tijdens het redeneren. We brengen ook RH-Bench uit, een diagnostische benchmark die een verscheidenheid aan multimodale taken omvat, ontworpen om de afweging tussen redeneervaardigheid en hallucinatie te beoordelen. Onze analyse onthult dat (i) grotere modellen doorgaans een betere balans bereiken tussen redeneren en perceptie, en (ii) deze balans meer wordt beïnvloed door de soorten en domeinen van trainingsdata dan door het totale volume ervan. Deze bevindingen benadrukken het belang van evaluatieframeworks die zowel de kwaliteit van het redeneren als de perceptuele trouw gezamenlijk in overweging nemen.
English
Test-time compute has empowered multimodal large language models to generate
extended reasoning chains, yielding strong performance on tasks such as
multimodal math reasoning. However, this improved reasoning ability often comes
with increased hallucination: as generations become longer, models tend to
drift away from image-grounded content and rely more heavily on language
priors. Attention analysis shows that longer reasoning chains lead to reduced
focus on visual inputs, which contributes to hallucination. To systematically
study this phenomenon, we introduce RH-AUC, a metric that quantifies how a
model's perception accuracy changes with reasoning length, allowing us to
evaluate whether the model preserves visual grounding during reasoning. We also
release RH-Bench, a diagnostic benchmark that spans a variety of multimodal
tasks, designed to assess the trade-off between reasoning ability and
hallucination. Our analysis reveals that (i) larger models typically achieve a
better balance between reasoning and perception, and (ii) this balance is
influenced more by the types and domains of training data than by its overall
volume. These findings underscore the importance of evaluation frameworks that
jointly consider both reasoning quality and perceptual fidelity.