La Cadena de Razonamiento Degrada las Capacidades de Razonamiento Espacial Visual en los MLLM Multimodales

Resumen

Los Modelos de Razonamiento Multimodal (MRM) que aprovechan el pensamiento basado en Cadenas de Razonamiento (CoT) han revolucionado la resolución de problemas matemáticos y lógicos. Sin embargo, demostramos que este paradigma tiene dificultades con la inteligencia espacial generalizada. Realizamos una evaluación exhaustiva de diecisiete modelos en trece puntos de referencia espaciales e identificamos una brecha crítica: el prompting CoT degrada consistentemente el rendimiento en el razonamiento espacial visual. Además, mediante una nueva ablación No-Imagen++, demostramos que los MRM y los Modelos de Lenguaje Multimodal (MLM) impulsados por CoT sufren de un severo aprendizaje por atajos y alucinan detalles visuales a partir de priores textuales, incluso cuando la imagen está ausente. Estos hallazgos cuestionan la eficacia del CoT basado únicamente en texto para tareas espaciales y subrayan la necesidad de paradigmas de razonamiento centrados en la visión.

English

Multimodal Reasoning Models (MRMs) leveraging Chain-of-Thought (CoT) based thinking have revolutionized mathematical and logical problem-solving. However, we show that this paradigm struggles with generalized spatial intelligence. We perform a comprehensive evaluation of seventeen models across thirteen spatial benchmarks and identify a critical gap: CoT prompting consistently degrades performance in visual spatial reasoning. Furthermore, through a novel No-Image++ ablation, we demonstrate that MRMs and CoT prompted MLMs suffer from severe shortcut learning, and hallucinate visual details from textual priors even when the image is absent. These findings challenge the efficacy of text-only CoT for spatial tasks and underscore the need for vision-centric reasoning paradigms.

La Cadena de Razonamiento Degrada las Capacidades de Razonamiento Espacial Visual en los MLLM Multimodales

Chain-of-Thought Degrades Visual Spatial Reasoning Capabilities of Multimodal LLMs

Resumen

Support