Riconsiderare la necessità di lunghe catene di ragionamento nella generalizzazione del ragionamento centrato sulla visione
Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization
November 27, 2025
Autori: Yifan Du, Kun Zhou, Yingqian Min, Yue Ling, Wayne Xin Zhao, Youbin Wu
cs.AI
Abstract
Studiamo come diverse progettazioni di Chain-of-Thought (CoT) influenzino l'acquisizione di capacità di ragionamento visivo generalizzabile nei modelli visione-linguaggio (VLM). Sebbene i dati CoT, specialmente quelli lunghi o visivi come il "pensare con le immagini", siano ampiamente utilizzati per supervisionare il ragionamento intermedio, non è ancora chiaro il motivo per cui specifici design CoT siano d'aiuto e quali supportino veramente un ragionamento generalizzabile. Per valutarlo sistematicamente, ci concentriamo su un benchmark controllato di risoluzione di labirinti, dove le regole di ragionamento sono puramente visive, la difficoltà può essere modulata dalla dimensione della griglia e tutti i passaggi intermedi possono essere generati automaticamente. Utilizzando Qwen2.5-VL-7B all'interno di una pipeline standard SFT-seguito-da-RL, confrontiamo tre formati CoT rappresentativi: CoT Linguistico, CoT con Grounding (con traiettorie di coordinate spaziali) e CoT Visivo (con manipolazioni di immagini). I nostri esperimenti rivelano che i CoT visivi e più lunghi accelerano principalmente la convergenza ma non innalzano il limite prestazionale finale; i CoT concisi, contenenti solo i passi essenziali di grounding, superano le tracce più lunghe; e, in modo sorprendente, i CoT che mantengono solo i risultati minimi di grounding si generalizzano meglio attraverso diverse dimensioni di labirinto. Validiamo ulteriormente queste intuizioni su altri task incentrati sulla visione. Questi risultati evidenziano un effetto "il corto è lungo" e forniscono una guida pratica per costruire dataset SFT più generalizzabili per il ragionamento visivo.
English
We study how different Chain-of-Thought (CoT) designs affect the acquisition of the generalizable visual reasoning ability in vision-language models (VLMs). While CoT data, especially long or visual CoT such as "think with image", has been widely used to supervise intermediate reasoning, it remains unclear why specific CoT designs help and which ones truly support generalizable reasoning. To systematically evaluate this, we focus on a controlled maze-solving benchmark where reasoning rules are fully visual, difficulty can be tuned by grid size, and all the intermediate steps can be automatically generated. Using Qwen2.5-VL-7B under a standard SFT-then-RL pipeline, we compare three representative CoT formats: Language CoT, Grounding CoT (with spatial coordinate trajectories), and Visual CoT (with image manipulations). Our experiments reveal that visual and longer CoT mainly accelerate convergence but do not lift the final performance ceiling; concise CoT containing only essential grounding steps outperforms longer traces; and, strikingly, CoT retaining only the minimal grounding results generalizes best across different maze sizes. We further validate these insights on other vision-centric tasks. These findings highlight a "short is long" effect and provide practical guidance for constructing more generalizable SFT datasets for visual reasoning.