Do Ver ao Pensar: Desacoplamento da Percepção e do Raciocínio Melhora o Pós-treinamento de Modelos de Visão-Linguagem

Resumo

Avanços recentes em modelos de visão-linguagem (VLMs) enfatizam o raciocínio de cadeia de pensamento longo; no entanto, constatamos que seu desempenho em tarefas visuais é principalmente limitado pela falta de percepção visual, em vez do raciocínio em si. Neste trabalho, estudamos sistematicamente a interação entre percepção e raciocínio no pós-treinamento de VLMs, decompondo suas capacidades em três estágios de treinamento separados: percepção visual, raciocínio visual e raciocínio textual, incorporando dados de treinamento especializados. Demonstramos que a percepção visual (a) requer otimização direcionada com dados especializados; (b) serve como um arcabouço fundamental que deve ser solidificado por meio de treinamento em estágios antes de refinar o raciocínio visual; e (c) é aprendida de forma mais eficaz via RL do que via SFT baseada em legendas. Nossos experimentos em múltiplos VLMs demonstram que o treinamento em estágios melhora consistentemente tanto a percepção visual quanto o desempenho de raciocínio em comparação com o treinamento combinado. Notavelmente, modelos treinados com nossa abordagem alcançam 1,5% mais precisão de raciocínio com 20,8% de cadeias de raciocínio mais curtas, sugerindo que uma percepção superior reduz a necessidade de raciocínio excessivo. Além disso, mostramos que essa segmentação baseada em capacidades representa uma nova dimensão curricular ortogonal aos currículos tradicionais baseados em dificuldade, e a combinação de ambos gera ganhos aditivos adicionais. Nossos modelos de treinamento em estágios alcançam desempenho superior entre VLMs de peso aberto, estabelecendo resultados avançados em várias tarefas de matemática visual e percepção (por exemplo, +5,2% no WeMath e +3,7% no RealWorldQA) em comparação com a contraparte base.

English

Recent advances in vision-language models (VLMs) emphasize long chain-of-thought reasoning; yet, we find that their performance on visual tasks is primarily limited by a lack of visual perception as opposed to reasoning itself. In this work, we systematically study the interplay between perception and reasoning in VLM post-training by decomposing their capabilities into three separate training stages: visual perception, visual reasoning, and textual reasoning, incorporating specialized training data. We demonstrate that visual perception (a) requires targeted optimization with specialized data; (b) serves as a fundamental scaffold that should be solidified through staged training before refining visual reasoning; and (c) is more effectively learned via RL than caption-based SFT. Our experiments across multiple VLMs demonstrate that staged training consistently improves both visual perception and reasoning performance over merged training. Notably, models trained with our approach achieve 1.5% higher reasoning accuracy with 20.8% shorter reasoning traces, suggesting that superior perception reduces the need for excessive reasoning. Furthermore, we show that this capability-based staging represents a new curriculum dimension orthogonal to traditional difficulty-based curricula, and combining both yields further additive gains. Our staged-training models achieve superior performance among open-weight VLMs, establishing advanced results on several visual math and perception (e.g., +5.2% on WeMath and +3.7% on RealWorldQA) tasks compared with the base counterpart.