Цепь рассуждений снижает способности мультимодальных больших языковых моделей к визуально-пространственному мышлению

Аннотация

Мультимодальные модели рассуждений (MRM), использующие цепочечное мышление (Chain-of-Thought, CoT), произвели революцию в решении математических и логических задач. Однако мы показываем, что данная парадигма испытывает трудности с обобщенным пространственным интеллектом. Мы проводим комплексную оценку семнадцати моделей на тринадцати пространственных бенчмарках и выявляем критический пробел: использование CoT-подсказок последовательно ухудшает результаты в задачах визуально-пространственного рассуждения. Более того, с помощью нового метода абляции No-Image++ мы демонстрируем, что MRM и языковые модели с CoT-подсказками подвержены серьезному обучению с использованием «коротких путей» и галлюцинируют визуальные детали на основе текстовых предикторов, даже когда изображение отсутствует. Эти результаты ставят под сомнение эффективность текстового CoT для пространственных задач и подчеркивают необходимость создания ориентированных на зрительное восприятие парадигм рассуждений.

English

Multimodal Reasoning Models (MRMs) leveraging Chain-of-Thought (CoT) based thinking have revolutionized mathematical and logical problem-solving. However, we show that this paradigm struggles with generalized spatial intelligence. We perform a comprehensive evaluation of seventeen models across thirteen spatial benchmarks and identify a critical gap: CoT prompting consistently degrades performance in visual spatial reasoning. Furthermore, through a novel No-Image++ ablation, we demonstrate that MRMs and CoT prompted MLMs suffer from severe shortcut learning, and hallucinate visual details from textual priors even when the image is absent. These findings challenge the efficacy of text-only CoT for spatial tasks and underscore the need for vision-centric reasoning paradigms.

Цепь рассуждений снижает способности мультимодальных больших языковых моделей к визуально-пространственному мышлению

Chain-of-Thought Degrades Visual Spatial Reasoning Capabilities of Multimodal LLMs

Аннотация

Support