Il Ragionamento a Catena del Pensiero Degrada le Capacità di Ragionamento Spaziale Visivo nei Modelli Multimodali di LLM

Abstract

I modelli di ragionamento multimodale (MRM) che sfruttano il ragionamento a catena del pensiero (CoT) hanno rivoluzionato la risoluzione di problemi matematici e logici. Tuttavia, dimostriamo che questo paradigma incontra difficoltà con l'intelligenza spaziale generalizzata. Eseguiamo una valutazione completa di diciassette modelli su tredici benchmark spaziali e identifichiamo un divario critico: il prompting CoT degrada sistematicamente le prestazioni nel ragionamento spaziale visivo. Inoltre, attraverso una nuova ablazione No-Image++, dimostriamo che gli MRM e i modelli linguistici multimodali (MLM) stimolati con CoT soffrono di un grave apprendimento di scorciatoie e allucinano dettagli visivi partendo da informazioni testuali preliminari, persino quando l'immagine è assente. Questi risultati mettono in discussione l'efficacia del CoT puramente testuale per compiti spaziali e sottolineano la necessità di paradigmi di ragionamento incentrati sulla visione.

English

Multimodal Reasoning Models (MRMs) leveraging Chain-of-Thought (CoT) based thinking have revolutionized mathematical and logical problem-solving. However, we show that this paradigm struggles with generalized spatial intelligence. We perform a comprehensive evaluation of seventeen models across thirteen spatial benchmarks and identify a critical gap: CoT prompting consistently degrades performance in visual spatial reasoning. Furthermore, through a novel No-Image++ ablation, we demonstrate that MRMs and CoT prompted MLMs suffer from severe shortcut learning, and hallucinate visual details from textual priors even when the image is absent. These findings challenge the efficacy of text-only CoT for spatial tasks and underscore the need for vision-centric reasoning paradigms.

Il Ragionamento a Catena del Pensiero Degrada le Capacità di Ragionamento Spaziale Visivo nei Modelli Multimodali di LLM

Chain-of-Thought Degrades Visual Spatial Reasoning Capabilities of Multimodal LLMs

Abstract

Support