Revisitando a Necessidade de Cadeias de Raciocínio Longas na Generalização do Raciocínio Centrado na Visão
Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization
November 27, 2025
Autores: Yifan Du, Kun Zhou, Yingqian Min, Yue Ling, Wayne Xin Zhao, Youbin Wu
cs.AI
Resumo
Nós estudamos como diferentes projetos de Cadeia de Pensamento (CoT) afetam a aquisição da capacidade de raciocínio visual generalizável em modelos de visão e linguagem (VLMs). Embora dados de CoT, especialmente CoT longos ou visuais, como "pensar com imagem", tenham sido amplamente utilizados para supervisionar o raciocínio intermediário, permanece incerto por que projetos específicos de CoT ajudam e quais deles realmente apoiam o raciocínio generalizável. Para avaliar isso sistematicamente, focamos em um benchmark controlado de resolução de labirintos onde as regras de raciocínio são totalmente visuais, a dificuldade pode ser ajustada pelo tamanho da grade, e todos os passos intermediários podem ser gerados automaticamente. Utilizando o Qwen2.5-VL-7B sob um pipeline padrão de SFT-para-RL, comparamos três formatos representativos de CoT: CoT em Linguagem, CoT com Aterramento (com trajetórias de coordenadas espaciais) e CoT Visual (com manipulações de imagem). Nossos experimentos revelam que CoT visuais e mais longos aceleram principalmente a convergência, mas não elevam o limite máximo de desempenho final; CoT concisos contendo apenas etapas essenciais de aterramento superam traços mais longos; e, surpreendentemente, o CoT que retém apenas os resultados mínimos de aterramento generaliza melhor através de diferentes tamanhos de labirinto. Validamos ainda mais essas percepções em outras tarefas centradas na visão. Essas descobertas destacam um efeito "menos é mais" e fornecem orientação prática para a construção de conjuntos de dados de SFT mais generalizáveis para o raciocínio visual.
English
We study how different Chain-of-Thought (CoT) designs affect the acquisition of the generalizable visual reasoning ability in vision-language models (VLMs). While CoT data, especially long or visual CoT such as "think with image", has been widely used to supervise intermediate reasoning, it remains unclear why specific CoT designs help and which ones truly support generalizable reasoning. To systematically evaluate this, we focus on a controlled maze-solving benchmark where reasoning rules are fully visual, difficulty can be tuned by grid size, and all the intermediate steps can be automatically generated. Using Qwen2.5-VL-7B under a standard SFT-then-RL pipeline, we compare three representative CoT formats: Language CoT, Grounding CoT (with spatial coordinate trajectories), and Visual CoT (with image manipulations). Our experiments reveal that visual and longer CoT mainly accelerate convergence but do not lift the final performance ceiling; concise CoT containing only essential grounding steps outperforms longer traces; and, strikingly, CoT retaining only the minimal grounding results generalizes best across different maze sizes. We further validate these insights on other vision-centric tasks. These findings highlight a "short is long" effect and provide practical guidance for constructing more generalizable SFT datasets for visual reasoning.