Più Pensiero, Meno Visione? Valutazione dell'Amplificazione delle Allucinazioni nei Modelli di Ragionamento Multimodale
More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models
May 23, 2025
Autori: Chengzhi Liu, Zhongxing Xu, Qingyue Wei, Juncheng Wu, James Zou, Xin Eric Wang, Yuyin Zhou, Sheng Liu
cs.AI
Abstract
Il calcolo durante il test ha potenziato i modelli linguistici multimodali di grandi dimensioni, consentendo loro di generare catene di ragionamento estese e ottenere prestazioni solide in compiti come il ragionamento matematico multimodale. Tuttavia, questa capacità di ragionamento migliorata spesso si accompagna a un aumento delle allucinazioni: man mano che le generazioni diventano più lunghe, i modelli tendono a discostarsi dai contenuti basati sulle immagini e a fare maggiore affidamento sui precedenti linguistici. L'analisi dell'attenzione mostra che catene di ragionamento più lunghe portano a una ridotta focalizzazione sugli input visivi, contribuendo così alle allucinazioni. Per studiare sistematicamente questo fenomeno, introduciamo RH-AUC, una metrica che quantifica come l'accuratezza percettiva di un modello cambi con la lunghezza del ragionamento, permettendoci di valutare se il modello mantiene il collegamento visivo durante il ragionamento. Rilasciamo anche RH-Bench, un benchmark diagnostico che copre una varietà di compiti multimodali, progettato per valutare il compromesso tra capacità di ragionamento e allucinazioni. La nostra analisi rivela che (i) i modelli più grandi tipicamente raggiungono un migliore equilibrio tra ragionamento e percezione, e (ii) questo equilibrio è influenzato più dai tipi e dai domini dei dati di addestramento che dal loro volume complessivo. Questi risultati sottolineano l'importanza di framework di valutazione che considerino congiuntamente sia la qualità del ragionamento che la fedeltà percettiva.
English
Test-time compute has empowered multimodal large language models to generate
extended reasoning chains, yielding strong performance on tasks such as
multimodal math reasoning. However, this improved reasoning ability often comes
with increased hallucination: as generations become longer, models tend to
drift away from image-grounded content and rely more heavily on language
priors. Attention analysis shows that longer reasoning chains lead to reduced
focus on visual inputs, which contributes to hallucination. To systematically
study this phenomenon, we introduce RH-AUC, a metric that quantifies how a
model's perception accuracy changes with reasoning length, allowing us to
evaluate whether the model preserves visual grounding during reasoning. We also
release RH-Bench, a diagnostic benchmark that spans a variety of multimodal
tasks, designed to assess the trade-off between reasoning ability and
hallucination. Our analysis reveals that (i) larger models typically achieve a
better balance between reasoning and perception, and (ii) this balance is
influenced more by the types and domains of training data than by its overall
volume. These findings underscore the importance of evaluation frameworks that
jointly consider both reasoning quality and perceptual fidelity.