ChatPaper.aiChatPaper

Переосмысление необходимости длинных цепочек рассуждений в обобщении визуально-ориентированных выводов

Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization

November 27, 2025
Авторы: Yifan Du, Kun Zhou, Yingqian Min, Yue Ling, Wayne Xin Zhao, Youbin Wu
cs.AI

Аннотация

Мы исследуем, как различные конструкции цепочки рассуждений (CoT) влияют на формирование обобщаемой способности к визуальному мышлению в визуально-языковых моделях (VLM). Хотя данные CoT, особенно длинные или визуальные, такие как «рассуждение с изображением», широко используются для контроля промежуточных логических шагов, до сих пор неясно, почему конкретные конструкции CoT помогают и какие из них действительно способствуют обобщаемому мышлению. Для систематической оценки этого мы используем контролируемый бенчмарк решения лабиринтов, где правила рассуждений полностью визуальны, сложность может настраиваться размером сетки, а все промежуточные шаги могут генерироваться автоматически. Используя модель Qwen2.5-VL-7B в рамках стандартного пайплайна SFT-then-RL, мы сравниваем три репрезентативных формата CoT: языковой CoT, CoT с привязкой к пространству (с траекториями пространственных координат) и визуальный CoT (с манипуляциями над изображением). Наши эксперименты показывают, что визуальные и более длинные CoT в основном ускоряют сходимость, но не повышают итоговый порог производительности; лаконичный CoT, содержащий только ключевые шаги привязки, превосходит по эффективности более длинные последовательности; и, что примечательно, CoT, сохраняющий лишь минимально необходимую привязку, лучше всего обобщается на лабиринтах разного размера. Мы дополнительно проверяем эти выводы на других визуально-ориентированных задачах. Полученные результаты демонстрируют эффект «краткость — сестра таланта» и дают практические рекомендации по построению более обобщаемых наборов данных SFT для визуального мышления.
English
We study how different Chain-of-Thought (CoT) designs affect the acquisition of the generalizable visual reasoning ability in vision-language models (VLMs). While CoT data, especially long or visual CoT such as "think with image", has been widely used to supervise intermediate reasoning, it remains unclear why specific CoT designs help and which ones truly support generalizable reasoning. To systematically evaluate this, we focus on a controlled maze-solving benchmark where reasoning rules are fully visual, difficulty can be tuned by grid size, and all the intermediate steps can be automatically generated. Using Qwen2.5-VL-7B under a standard SFT-then-RL pipeline, we compare three representative CoT formats: Language CoT, Grounding CoT (with spatial coordinate trajectories), and Visual CoT (with image manipulations). Our experiments reveal that visual and longer CoT mainly accelerate convergence but do not lift the final performance ceiling; concise CoT containing only essential grounding steps outperforms longer traces; and, strikingly, CoT retaining only the minimal grounding results generalizes best across different maze sizes. We further validate these insights on other vision-centric tasks. These findings highlight a "short is long" effect and provide practical guidance for constructing more generalizable SFT datasets for visual reasoning.
PDF51December 4, 2025