La chaîne de raisonnement dégrade les capacités de raisonnement spatial visuel des modèles de langage multimodaux

Résumé

Les modèles de raisonnement multimodal (MRM) exploitant une réflexion basée sur le chaînage de pensées (CoT) ont révolutionné la résolution de problèmes mathématiques et logiques. Cependant, nous démontrons que ce paradigme éprouve des difficultés avec l'intelligence spatiale généralisée. Nous réalisons une évaluation complète de dix-sept modèles sur treize benchmarks spatiaux et identifions un déficit critique : l'incitation CoT dégrade systématiquement les performances en raisonnement spatial visuel. De plus, grâce à une nouvelle ablation No-Image++, nous démontrons que les MRM et les modèles de langage massifs (MLM) incités par CoT souffrent d'un apprentissage par raccourci sévère et hallucinent des détails visuels à partir d'aprioris textuels, même en l'absence d'image. Ces résultats remettent en cause l'efficacité du CoT purement textuel pour les tâches spatiales et soulignent la nécessité de paradigmes de raisonnement centrés sur la vision.

English

Multimodal Reasoning Models (MRMs) leveraging Chain-of-Thought (CoT) based thinking have revolutionized mathematical and logical problem-solving. However, we show that this paradigm struggles with generalized spatial intelligence. We perform a comprehensive evaluation of seventeen models across thirteen spatial benchmarks and identify a critical gap: CoT prompting consistently degrades performance in visual spatial reasoning. Furthermore, through a novel No-Image++ ablation, we demonstrate that MRMs and CoT prompted MLMs suffer from severe shortcut learning, and hallucinate visual details from textual priors even when the image is absent. These findings challenge the efficacy of text-only CoT for spatial tasks and underscore the need for vision-centric reasoning paradigms.

La chaîne de raisonnement dégrade les capacités de raisonnement spatial visuel des modèles de langage multimodaux

Chain-of-Thought Degrades Visual Spatial Reasoning Capabilities of Multimodal LLMs

Résumé

Support