시각 중심 추론 일반화를 위한 장황한 사고 과정의 필요성 재고
Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization
November 27, 2025
저자: Yifan Du, Kun Zhou, Yingqian Min, Yue Ling, Wayne Xin Zhao, Youbin Wu
cs.AI
초록
우리는 다양한 사고 연쇄(Chain-of-Thought, CoT) 설계가 시각-언어 모델(VLM)의 일반화 가능한 시각 추론 능력 습득에 어떤 영향을 미치는지 연구합니다. 특히 "이미지로 생각하기"와 같은 긴 형태나 시각적 CoT 데이터가 중간 추론 과정을 지도 학습(supervision)하는 데 널리 사용되지만, 왜 특정 CoT 설계가 도움이 되는지, 그리고 어떤 것이 진정으로 일반화 가능한 추론을 지원하는지는 여전히 명확하지 않습니다. 이를 체계적으로 평가하기 위해 우리는 추론 규칙이 완전히 시각적이며, 격자 크기로 난이도를 조절할 수 있고, 모든 중간 단계를 자동 생성할 수 있는 통제된 미로 해결(maze-solving) 벤치마크에 주목합니다. 표준 SFT-then-RL(지도 미세 조절 후 강화 학습) 파이프라인 하에서 Qwen2.5-VL-7B 모델을 사용하여 세 가지 대표적인 CoT 형식(언어 CoT, 위치 기반 CoT(공간 좌표 궤적 포함), 시각 CoT(이미지 조작 포함))을 비교합니다. 우리의 실험 결과, 시각적이고 긴 CoT는 주로 수렴 속도를 가속화할 뿐 최종 성능 한계를 높이지는 않으며, 핵심적인 위치 기반 단계만 포함하는 간결한 CoT가 긴 추적보다 성능이 우수하고, 놀랍게도 최소한의 위치 기반 결과만 유지하는 CoT가 다양한 미로 크기에서 가장 우수한 일반화 성능을 보인다는 것을 확인했습니다. 우리는 이러한 통찰력을 다른 시각 중심 과제에서도 추가로 검증합니다. 이러한 발견은 "짧은 것이 더 길다(short is long)"는 효과를 부각시키며, 시각 추론을 위한 보다 일반화 가능한 SFT 데이터셋 구축에 실용적인 지침을 제공합니다.
English
We study how different Chain-of-Thought (CoT) designs affect the acquisition of the generalizable visual reasoning ability in vision-language models (VLMs). While CoT data, especially long or visual CoT such as "think with image", has been widely used to supervise intermediate reasoning, it remains unclear why specific CoT designs help and which ones truly support generalizable reasoning. To systematically evaluate this, we focus on a controlled maze-solving benchmark where reasoning rules are fully visual, difficulty can be tuned by grid size, and all the intermediate steps can be automatically generated. Using Qwen2.5-VL-7B under a standard SFT-then-RL pipeline, we compare three representative CoT formats: Language CoT, Grounding CoT (with spatial coordinate trajectories), and Visual CoT (with image manipulations). Our experiments reveal that visual and longer CoT mainly accelerate convergence but do not lift the final performance ceiling; concise CoT containing only essential grounding steps outperforms longer traces; and, strikingly, CoT retaining only the minimal grounding results generalizes best across different maze sizes. We further validate these insights on other vision-centric tasks. These findings highlight a "short is long" effect and provide practical guidance for constructing more generalizable SFT datasets for visual reasoning.