Revisando la Necesidad de Cadenas de Razonamiento Extensas en la Generalización del Razonamiento Centrado en la Visión
Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization
November 27, 2025
Autores: Yifan Du, Kun Zhou, Yingqian Min, Yue Ling, Wayne Xin Zhao, Youbin Wu
cs.AI
Resumen
Estudiamos cómo diferentes diseños de Cadena de Pensamiento (CoT) afectan la adquisición de la capacidad de razonamiento visual generalizable en modelos de visión y lenguaje (VLMs). Si bien los datos de CoT, especialmente los CoT largos o visuales como "pensar con imágenes", se han utilizado ampliamente para supervisar el razonamiento intermedio, aún no está claro por qué diseños específicos de CoT ayudan y cuáles realmente respaldan un razonamiento generalizable. Para evaluar esto sistemáticamente, nos centramos en un benchmark controlado de resolución de laberintos donde las reglas de razonamiento son completamente visuales, la dificultad puede ajustarse mediante el tamaño de la cuadrícula y todos los pasos intermedios pueden generarse automáticamente. Utilizando Qwen2.5-VL-7B bajo un pipeline estándar de SFT seguido de RL, comparamos tres formatos de CoT representativos: CoT Lingüístico, CoT de Grounding (con trayectorias de coordenadas espaciales) y CoT Visual (con manipulaciones de imágenes). Nuestros experimentos revelan que los CoT visuales y más largos aceleran principalmente la convergencia pero no elevan el techo de rendimiento final; los CoT concisos que contienen solo los pasos esenciales de grounding superan a las trazas más largas; y, sorprendentemente, el CoT que retiene solo los resultados mínimos de grounding se generaliza mejor a través de diferentes tamaños de laberinto. Validamos además estas observaciones en otras tareas centradas en la visión. Estos hallazgos destacan un efecto de "menos es más" y proporcionan una guía práctica para construir conjuntos de datos de SFT más generalizables para el razonamiento visual.
English
We study how different Chain-of-Thought (CoT) designs affect the acquisition of the generalizable visual reasoning ability in vision-language models (VLMs). While CoT data, especially long or visual CoT such as "think with image", has been widely used to supervise intermediate reasoning, it remains unclear why specific CoT designs help and which ones truly support generalizable reasoning. To systematically evaluate this, we focus on a controlled maze-solving benchmark where reasoning rules are fully visual, difficulty can be tuned by grid size, and all the intermediate steps can be automatically generated. Using Qwen2.5-VL-7B under a standard SFT-then-RL pipeline, we compare three representative CoT formats: Language CoT, Grounding CoT (with spatial coordinate trajectories), and Visual CoT (with image manipulations). Our experiments reveal that visual and longer CoT mainly accelerate convergence but do not lift the final performance ceiling; concise CoT containing only essential grounding steps outperforms longer traces; and, strikingly, CoT retaining only the minimal grounding results generalizes best across different maze sizes. We further validate these insights on other vision-centric tasks. These findings highlight a "short is long" effect and provide practical guidance for constructing more generalizable SFT datasets for visual reasoning.