Più Pensiero, Meno Visione? Valutazione dell'Amplificazione delle Allucinazioni nei Modelli di Ragionamento Multimodale

Abstract

Il calcolo durante il test ha potenziato i modelli linguistici multimodali di grandi dimensioni, consentendo loro di generare catene di ragionamento estese e ottenere prestazioni solide in compiti come il ragionamento matematico multimodale. Tuttavia, questa capacità di ragionamento migliorata spesso si accompagna a un aumento delle allucinazioni: man mano che le generazioni diventano più lunghe, i modelli tendono a discostarsi dai contenuti basati sulle immagini e a fare maggiore affidamento sui precedenti linguistici. L'analisi dell'attenzione mostra che catene di ragionamento più lunghe portano a una ridotta focalizzazione sugli input visivi, contribuendo così alle allucinazioni. Per studiare sistematicamente questo fenomeno, introduciamo RH-AUC, una metrica che quantifica come l'accuratezza percettiva di un modello cambi con la lunghezza del ragionamento, permettendoci di valutare se il modello mantiene il collegamento visivo durante il ragionamento. Rilasciamo anche RH-Bench, un benchmark diagnostico che copre una varietà di compiti multimodali, progettato per valutare il compromesso tra capacità di ragionamento e allucinazioni. La nostra analisi rivela che (i) i modelli più grandi tipicamente raggiungono un migliore equilibrio tra ragionamento e percezione, e (ii) questo equilibrio è influenzato più dai tipi e dai domini dei dati di addestramento che dal loro volume complessivo. Questi risultati sottolineano l'importanza di framework di valutazione che considerino congiuntamente sia la qualità del ragionamento che la fedeltà percettiva.

English

Test-time compute has empowered multimodal large language models to generate extended reasoning chains, yielding strong performance on tasks such as multimodal math reasoning. However, this improved reasoning ability often comes with increased hallucination: as generations become longer, models tend to drift away from image-grounded content and rely more heavily on language priors. Attention analysis shows that longer reasoning chains lead to reduced focus on visual inputs, which contributes to hallucination. To systematically study this phenomenon, we introduce RH-AUC, a metric that quantifies how a model's perception accuracy changes with reasoning length, allowing us to evaluate whether the model preserves visual grounding during reasoning. We also release RH-Bench, a diagnostic benchmark that spans a variety of multimodal tasks, designed to assess the trade-off between reasoning ability and hallucination. Our analysis reveals that (i) larger models typically achieve a better balance between reasoning and perception, and (ii) this balance is influenced more by the types and domains of training data than by its overall volume. These findings underscore the importance of evaluation frameworks that jointly consider both reasoning quality and perceptual fidelity.

Più Pensiero, Meno Visione? Valutazione dell'Amplificazione delle Allucinazioni nei Modelli di Ragionamento Multimodale

More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models

Abstract

Support