ChatPaper.aiChatPaper

Reconsidérer la nécessité des chaînes de raisonnement longues dans la généralisation du raisonnement centré sur la vision

Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization

November 27, 2025
papers.authors: Yifan Du, Kun Zhou, Yingqian Min, Yue Ling, Wayne Xin Zhao, Youbin Wu
cs.AI

papers.abstract

Nous étudions comment différentes conceptions de la Chaîne de Pensée (CoT) affectent l'acquisition de capacités de raisonnement visuel généralisables dans les modèles vision-langage (VLM). Bien que les données CoT, particulièrement les CoT longues ou visuelles comme « penser avec l'image », soient largement utilisées pour superviser le raisonnement intermédiaire, il reste incertain pourquoi certains designs de CoT aident et lesquels soutiennent véritablement un raisonnement généralisable. Pour évaluer ceci systématiquement, nous nous concentrons sur un benchmark contrôlé de résolution de labyrinthes où les règles de raisonnement sont entièrement visuelles, la difficulté peut être ajustée via la taille de la grille, et toutes les étapes intermédiaires peuvent être générées automatiquement. En utilisant Qwen2.5-VL-7B dans un pipeline standard SFT-puis-RL, nous comparons trois formats de CoT représentatifs : la CoT Langagière, la CoT d'Ancrage (avec des trajectoires de coordonnées spatiales) et la CoT Visuelle (avec manipulations d'image). Nos expériences révèlent que les CoT visuelles et longues accélèrent principalement la convergence mais n'élèvent pas le plafond de performance final ; une CoT concise contenant uniquement les étapes d'ancrage essentielles surpasse les traces plus longues ; et, fait marquant, la CoT ne conservant que les résultats d'ancrage minimaux généralise le mieux sur différentes tailles de labyrinthe. Nous validons ensuite ces observations sur d'autres tâches centrées sur la vision. Ces résultats mettent en évidence un effet « le court est long » et fournissent des conseils pratiques pour construire des ensembles de données SFT plus généralisables pour le raisonnement visuel.
English
We study how different Chain-of-Thought (CoT) designs affect the acquisition of the generalizable visual reasoning ability in vision-language models (VLMs). While CoT data, especially long or visual CoT such as "think with image", has been widely used to supervise intermediate reasoning, it remains unclear why specific CoT designs help and which ones truly support generalizable reasoning. To systematically evaluate this, we focus on a controlled maze-solving benchmark where reasoning rules are fully visual, difficulty can be tuned by grid size, and all the intermediate steps can be automatically generated. Using Qwen2.5-VL-7B under a standard SFT-then-RL pipeline, we compare three representative CoT formats: Language CoT, Grounding CoT (with spatial coordinate trajectories), and Visual CoT (with image manipulations). Our experiments reveal that visual and longer CoT mainly accelerate convergence but do not lift the final performance ceiling; concise CoT containing only essential grounding steps outperforms longer traces; and, strikingly, CoT retaining only the minimal grounding results generalizes best across different maze sizes. We further validate these insights on other vision-centric tasks. These findings highlight a "short is long" effect and provide practical guidance for constructing more generalizable SFT datasets for visual reasoning.
PDF51December 4, 2025