Il Ragionamento a Catena del Pensiero Degrada le Capacità di Ragionamento Spaziale Visivo nei Modelli Multimodali di LLM
Chain-of-Thought Degrades Visual Spatial Reasoning Capabilities of Multimodal LLMs
April 17, 2026
Autori: Sai Srinivas Kancheti, Aditya Sanjiv Kanade, Vineeth N. Balasubramanian, Tanuja Ganu
cs.AI
Abstract
I modelli di ragionamento multimodale (MRM) che sfruttano il ragionamento a catena del pensiero (CoT) hanno rivoluzionato la risoluzione di problemi matematici e logici. Tuttavia, dimostriamo che questo paradigma incontra difficoltà con l'intelligenza spaziale generalizzata. Eseguiamo una valutazione completa di diciassette modelli su tredici benchmark spaziali e identifichiamo un divario critico: il prompting CoT degrada sistematicamente le prestazioni nel ragionamento spaziale visivo. Inoltre, attraverso una nuova ablazione No-Image++, dimostriamo che gli MRM e i modelli linguistici multimodali (MLM) stimolati con CoT soffrono di un grave apprendimento di scorciatoie e allucinano dettagli visivi partendo da informazioni testuali preliminari, persino quando l'immagine è assente. Questi risultati mettono in discussione l'efficacia del CoT puramente testuale per compiti spaziali e sottolineano la necessità di paradigmi di ragionamento incentrati sulla visione.
English
Multimodal Reasoning Models (MRMs) leveraging Chain-of-Thought (CoT) based thinking have revolutionized mathematical and logical problem-solving. However, we show that this paradigm struggles with generalized spatial intelligence. We perform a comprehensive evaluation of seventeen models across thirteen spatial benchmarks and identify a critical gap: CoT prompting consistently degrades performance in visual spatial reasoning. Furthermore, through a novel No-Image++ ablation, we demonstrate that MRMs and CoT prompted MLMs suffer from severe shortcut learning, and hallucinate visual details from textual priors even when the image is absent. These findings challenge the efficacy of text-only CoT for spatial tasks and underscore the need for vision-centric reasoning paradigms.