Überdenken der Notwendigkeit langer Denkketten für die Generalisierung visuenzentrierter Schlussfolgerungen
Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization
November 27, 2025
papers.authors: Yifan Du, Kun Zhou, Yingqian Min, Yue Ling, Wayne Xin Zhao, Youbin Wu
cs.AI
papers.abstract
Wir untersuchen, wie verschiedene Chain-of-Thought (CoT)-Designs den Erwerb generalisierbarer visueller Reasoning-Fähigkeiten in Vision-Language-Modellen (VLMs) beeinflussen. Obwohl CoT-Daten, insbesondere lange oder visuelle CoT wie "Denken mit Bildern", häufig zur Überwachung von Zwischenschritten im Reasoning verwendet werden, ist unklar, warum bestimmte CoT-Designs helfen und welche wirklich generalisierbares Reasoning unterstützen. Um dies systematisch zu evaluieren, konzentrieren wir uns auf einen kontrollierten Benchmark zur Labyrinth-Lösung, bei dem die Reasoning-Regeln rein visuell sind, der Schwierigkeitsgrad über die Gittergröße gesteuert werden kann und alle Zwischenschritte automatisch generiert werden können. Unter Verwendung von Qwen2.5-VL-7B in einem standardmäßigen SFT-then-RL-Pipeline vergleichen wir drei repräsentative CoT-Formate: Sprach-CoT, Grounding-CoT (mit räumlichen Koordinatentrajektorien) und Visuelle CoT (mit Bildmanipulationen). Unsere Experimente zeigen, dass visuelle und längere CoT hauptsächlich die Konvergenz beschleunigen, aber die finale Leistungsobergrenze nicht anheben; prägnante CoT, die nur essentielle Grounding-Schritte enthalten, schneiden besser ab als längere Spuren; und bemerkenswerterweise generalisiert CoT, das nur die minimalen Grounding-Ergebnisse beibehält, am besten über verschiedene Labyrinthgrößen hinweg. Wir validieren diese Erkenntnisse weiterhin an anderen visuell-zentrierten Aufgaben. Diese Ergebnisse unterstreichen einen "Kurz ist lang"-Effekt und bieten praktische Leitlinien für die Konstruktion generalisierbarer SFT-Datensätze für visuelles Reasoning.
English
We study how different Chain-of-Thought (CoT) designs affect the acquisition of the generalizable visual reasoning ability in vision-language models (VLMs). While CoT data, especially long or visual CoT such as "think with image", has been widely used to supervise intermediate reasoning, it remains unclear why specific CoT designs help and which ones truly support generalizable reasoning. To systematically evaluate this, we focus on a controlled maze-solving benchmark where reasoning rules are fully visual, difficulty can be tuned by grid size, and all the intermediate steps can be automatically generated. Using Qwen2.5-VL-7B under a standard SFT-then-RL pipeline, we compare three representative CoT formats: Language CoT, Grounding CoT (with spatial coordinate trajectories), and Visual CoT (with image manipulations). Our experiments reveal that visual and longer CoT mainly accelerate convergence but do not lift the final performance ceiling; concise CoT containing only essential grounding steps outperforms longer traces; and, strikingly, CoT retaining only the minimal grounding results generalizes best across different maze sizes. We further validate these insights on other vision-centric tasks. These findings highlight a "short is long" effect and provide practical guidance for constructing more generalizable SFT datasets for visual reasoning.