視覚中心推論の汎化における長い思考連鎖の必要性の再検討
Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization
November 27, 2025
著者: Yifan Du, Kun Zhou, Yingqian Min, Yue Ling, Wayne Xin Zhao, Youbin Wu
cs.AI
要旨
我々は、様々なChain-of-Thought(CoT)設計が視覚言語モデル(VLM)における一般化可能な視覚推論能力の獲得に与える影響を研究する。特に、長いCoTや「画像で考える」といった視覚的CoTなどの推論データは、中間推論を監督するために広く用いられているが、なぜ特定のCoT設計が有効なのか、またどの設計が真に一般化可能な推論を支援するのかは不明である。これを体系的に評価するため、推論規則が完全に視覚的であり、難易度をグリッドサイズで調整可能で、すべての中間ステップを自動生成できる迷路解決ベンチマークに焦点を当てる。標準的なSFT-then-RLパイプラインの下でQwen2.5-VL-7Bを使用し、言語CoT、グラウンディングCoT(空間座標軌跡付き)、視覚CoT(画像操作付き)という3つの代表的なCoT形式を比較する。実験結果から、視覚的で長いCoTは主に収束を加速するが最終性能の上限は引き上げないこと、本質的なグラウンディングステップのみを含む簡潔なCoTが長い軌跡を上回ること、そして驚くべきことに、最小限のグラウンディング結果のみを保持するCoTが異なる迷路サイズ間で最も優れた一般化性能を示すことが明らかとなった。さらに、これらの知見を他の視覚中心タスクで検証する。これらの発見は「短い方が長い」効果を浮き彫りにし、視覚推論のためのより一般化可能なSFTデータセット構築に対する実践的な指針を提供する。
English
We study how different Chain-of-Thought (CoT) designs affect the acquisition of the generalizable visual reasoning ability in vision-language models (VLMs). While CoT data, especially long or visual CoT such as "think with image", has been widely used to supervise intermediate reasoning, it remains unclear why specific CoT designs help and which ones truly support generalizable reasoning. To systematically evaluate this, we focus on a controlled maze-solving benchmark where reasoning rules are fully visual, difficulty can be tuned by grid size, and all the intermediate steps can be automatically generated. Using Qwen2.5-VL-7B under a standard SFT-then-RL pipeline, we compare three representative CoT formats: Language CoT, Grounding CoT (with spatial coordinate trajectories), and Visual CoT (with image manipulations). Our experiments reveal that visual and longer CoT mainly accelerate convergence but do not lift the final performance ceiling; concise CoT containing only essential grounding steps outperforms longer traces; and, strikingly, CoT retaining only the minimal grounding results generalizes best across different maze sizes. We further validate these insights on other vision-centric tasks. These findings highlight a "short is long" effect and provide practical guidance for constructing more generalizable SFT datasets for visual reasoning.