Vom Sehen zum Denken: Entkopplung von Wahrnehmung und logischem Denken verbessert das Post-Training von Vision-Language-Modellen

Zusammenfassung

Jüngste Fortschritte bei visuellen Sprachmodellen (VLMs) legen den Schwerpunkt auf lange Ketten-Denkprozesse; dennoch stellen wir fest, dass ihre Leistung bei visuellen Aufgaben in erster Linie durch mangelnde visuelle Wahrnehmung und nicht durch das Denken selbst eingeschränkt wird. In dieser Arbeit untersuchen wir systematisch das Zusammenspiel von Wahrnehmung und Denken beim Nachtraining von VLMs, indem wir ihre Fähigkeiten in drei separate Trainingsphasen aufteilen: visuelle Wahrnehmung, visuelles Denken und textbasiertes Denken, jeweils mit spezialisierten Trainingsdaten. Wir zeigen, dass visuelle Wahrnehmung (a) eine gezielte Optimierung mit speziellen Daten erfordert; (b) als grundlegendes Gerüst dient, das durch gestuftes Training gefestigt werden sollte, bevor das visuelle Denken verfeinert wird; und (c) effektiver durch Reinforcement Learning als durch captionsbasiertes SFT erlernt wird. Unsere Experimente mit mehreren VLMs zeigen, dass gestuftes Training konsistent sowohl die visuelle Wahrnehmung als auch die Denkleistung im Vergleich zu zusammengelegtem Training verbessert. Bemerkenswerterweise erreichen mit unserem Ansatz trainierte Modelle eine um 1,5 % höhere Denkgenauigkeit bei gleichzeitig 20,8 % kürzeren Denkspuren, was darauf hindeutet, dass eine bessere Wahrnehmung den Bedarf an übermäßigem Denken reduziert. Darüber hinaus zeigen wir, dass diese fähigkeitsbasierte Stufung eine neue Curriculum-Dimension darstellt, die orthogonal zu traditionellen schwierigkeitsbasierten Curricula ist, und dass die Kombination beider zusätzliche additive Gewinne bringt. Unsere gestuft trainierten Modelle erzielen eine überlegene Leistung unter VLMs mit offenen Gewichten und etablieren fortgeschrittene Ergebnisse bei mehreren visuellen Mathe- und Wahrnehmungsaufgaben (z. B. +5,2 % bei WeMath und +3,7 % bei RealWorldQA) im Vergleich zum Basis-Pendant.

English

Recent advances in vision-language models (VLMs) emphasize long chain-of-thought reasoning; yet, we find that their performance on visual tasks is primarily limited by a lack of visual perception as opposed to reasoning itself. In this work, we systematically study the interplay between perception and reasoning in VLM post-training by decomposing their capabilities into three separate training stages: visual perception, visual reasoning, and textual reasoning, incorporating specialized training data. We demonstrate that visual perception (a) requires targeted optimization with specialized data; (b) serves as a fundamental scaffold that should be solidified through staged training before refining visual reasoning; and (c) is more effectively learned via RL than caption-based SFT. Our experiments across multiple VLMs demonstrate that staged training consistently improves both visual perception and reasoning performance over merged training. Notably, models trained with our approach achieve 1.5% higher reasoning accuracy with 20.8% shorter reasoning traces, suggesting that superior perception reduces the need for excessive reasoning. Furthermore, we show that this capability-based staging represents a new curriculum dimension orthogonal to traditional difficulty-based curricula, and combining both yields further additive gains. Our staged-training models achieve superior performance among open-weight VLMs, establishing advanced results on several visual math and perception (e.g., +5.2% on WeMath and +3.7% on RealWorldQA) tasks compared with the base counterpart.