Смотри легко, думай глубоко: что может и не может мультимодальное цепочечное рассуждение

Аннотация

Цепочка мыслей (Chain-of-Thought, CoT) стала стандартным методом повышения способности к рассуждению в больших языковых моделях (LLM) за счёт пошагового мышления, однако её эффективность в мультимодальных задачах остаётся неясной. В данной работе мы стремимся систематически исследовать ключевой вопрос: на что способно мультимодальное рассуждение на основе цепочки мыслей, где и почему оно оказывается несостоятельным? С этой целью мы оцениваем 12 мультимодальных задач из категорий восприятия и рассуждения, используя 14 моделей без рассуждения и 8 моделей с рассуждением. Наш анализ выявляет несколько важных результатов: (1) CoT не является бесплатным решением и должен применяться выборочно, в зависимости от конкретных требований каждой задачи. Для задач восприятия CoT может приводить к нежелательным побочным эффектам, таким как снижение производительности в визуальном привязывании и подсчёте объектов. Напротив, он оказывается эффективным для задач рассуждения, включающих математические, научные и мультиизображенческие рассуждения; (2) По сравнению с исходными моделями, существующие открытые мультимодальные модели рассуждения часто дают лишь незначительные общие улучшения, возможно, из-за чрезмерного акцента на математических рассуждениях в ущерб более широким способностям; (3) Визуальное рассуждение остаётся ключевым узким местом для современного мультимодального CoT, поскольку модели демонстрируют паттерн «светлый взгляд, тяжёлая мысль», где вербальная рефлексия то возрастает, то спадает в ходе рассуждения, в то время как визуальная рефлексия последовательно ослабевает. Эти результаты указывают на то, что, хотя мультимодальный CoT относительно хорошо справляется с вербальной рефлексией, ему не хватает способности поддерживать глубокую визуальную интроспекцию на протяжении всего процесса рассуждения.

English

Chain-of-Thought (CoT) has become a standard method for improving reasoning capabilities in large language models (LLMs) by eliciting step-by-step thinking, but its effectiveness in multimodal tasks remains unclear. In this paper, we aim to systematically investigate the key question: What can multimodal Chain-of-Thought reasoning do, and where and why does it fall short? To this end, we evaluate 12 multimodal tasks across perception and reasoning categories using both 14 non-reasoning models and 8 reasoning models. Our analysis reveals several important findings: (1) CoT is not a free lunch and should be used selectively depending on the specific requirements of each task. For perception tasks, CoT can lead to undesirable side effects, such as reduced performance in visual grounding and object counting. In contrast, it proves effective for reasoning tasks involving mathematical, scientific, and multi-image reasoning; (2) Compared to original models, existing open-source multimodal reasoning models often yield only marginal overall improvements, possibly due to an overemphasis on mathematical reasoning at the expense of broader capabilities; (3) Visual reasoning remains a key bottleneck for current multimodal CoT, as models exhibit a Look Light, Think Heavy pattern where verbal reflection rises and falls during reasoning, whereas visual reflection consistently diminishes. These findings suggest that while multimodal CoT handles verbal reflection relatively well, it lacks the ability to maintain deep visual introspection throughout the reasoning process.