A Cadeia de Pensamento Degrada as Capacidades de Raciocínio Espacial Visual de MLLMs

Resumo

Os Modelos de Raciocínio Multimodal (MRMs) que utilizam o pensamento baseado em Cadeia de Pensamento (CoT) revolucionaram a resolução de problemas matemáticos e lógicos. No entanto, demonstramos que este paradigma enfrenta dificuldades com a inteligência espacial generalizada. Realizamos uma avaliação abrangente de dezessete modelos em treze benchmarks espaciais e identificamos uma lacuna crítica: a prompting CoT degrada consistentemente o desempenho no raciocínio espacial visual. Além disso, por meio de uma nova ablação No-Image++, demonstramos que os MRMs e MLMs com prompting CoT sofrem de aprendizado por atalho severo e alucinam detalhes visuais a partir de prévias textuais, mesmo quando a imagem está ausente. Essas descobertas desafiam a eficácia do CoT baseado apenas em texto para tarefas espaciais e ressaltam a necessidade de paradigmas de raciocínio centrados na visão.

English

Multimodal Reasoning Models (MRMs) leveraging Chain-of-Thought (CoT) based thinking have revolutionized mathematical and logical problem-solving. However, we show that this paradigm struggles with generalized spatial intelligence. We perform a comprehensive evaluation of seventeen models across thirteen spatial benchmarks and identify a critical gap: CoT prompting consistently degrades performance in visual spatial reasoning. Furthermore, through a novel No-Image++ ablation, we demonstrate that MRMs and CoT prompted MLMs suffer from severe shortcut learning, and hallucinate visual details from textual priors even when the image is absent. These findings challenge the efficacy of text-only CoT for spatial tasks and underscore the need for vision-centric reasoning paradigms.

A Cadeia de Pensamento Degrada as Capacidades de Raciocínio Espacial Visual de MLLMs

Chain-of-Thought Degrades Visual Spatial Reasoning Capabilities of Multimodal LLMs

Resumo

Support