ChatPaper.aiChatPaper

Heroverwegen van de Noodzaak van Lange Redeneerketens in Visueel-gestuurde Algemene Redeneervaardigheid

Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization

November 27, 2025
Auteurs: Yifan Du, Kun Zhou, Yingqian Min, Yue Ling, Wayne Xin Zhao, Youbin Wu
cs.AI

Samenvatting

Wij onderzoeken hoe verschillende Chain-of-Thought (CoT) ontwerpen de verwerving van generaliseerbare visuele redeneervaardigheid in visie-taalmodellen (VLM's) beïnvloeden. Hoewel CoT-data, met name lange of visuele CoT zoals 'denken met beeld', veelvuldig worden gebruikt om tussenliggende redenering te superviseren, is het onduidelijk waarom specifieke CoT-ontwerpen helpen en welke daadwerkelijk generaliseerbaar redeneren ondersteunen. Om dit systematisch te evalueren, richten we ons op een gecontroleerd doolhof-oplossend benchmark waarbij de redeneerregels volledig visueel zijn, de moeilijkheidsgraad kan worden afgestemd via rastergrootte, en alle tussenstappen automatisch gegenereerd kunnen worden. Met Qwen2.5-VL-7B in een standaard SFT-then-RL pijplijn vergelijken we drie representatieve CoT-formaten: Taal-CoT, Grounding-CoT (met ruimtelijke coördinaattrajecten) en Visuele-CoT (met beeldmanipulaties). Onze experimenten tonen aan dat visuele en langere CoT voornamelijk de convergentie versnellen maar de uiteindelijke prestatieplafonds niet verhogen; beknopte CoT die alleen essentiële grounding-stappen bevat presteert beter dan langere sporen; en, opvallend genoeg, generaliseert CoT die alleen de minimale grounding-resultaten behoudt het beste over verschillende doolhofgroottes. Wij valideren deze inzichten verder op andere visie-centrische taken. Deze bevindingen benadrukken een "kort is lang" effect en bieden praktische richtlijnen voor het construeren van meer generaliseerbare SFT-datasets voor visueel redeneren.
English
We study how different Chain-of-Thought (CoT) designs affect the acquisition of the generalizable visual reasoning ability in vision-language models (VLMs). While CoT data, especially long or visual CoT such as "think with image", has been widely used to supervise intermediate reasoning, it remains unclear why specific CoT designs help and which ones truly support generalizable reasoning. To systematically evaluate this, we focus on a controlled maze-solving benchmark where reasoning rules are fully visual, difficulty can be tuned by grid size, and all the intermediate steps can be automatically generated. Using Qwen2.5-VL-7B under a standard SFT-then-RL pipeline, we compare three representative CoT formats: Language CoT, Grounding CoT (with spatial coordinate trajectories), and Visual CoT (with image manipulations). Our experiments reveal that visual and longer CoT mainly accelerate convergence but do not lift the final performance ceiling; concise CoT containing only essential grounding steps outperforms longer traces; and, strikingly, CoT retaining only the minimal grounding results generalizes best across different maze sizes. We further validate these insights on other vision-centric tasks. These findings highlight a "short is long" effect and provide practical guidance for constructing more generalizable SFT datasets for visual reasoning.
PDF51December 4, 2025