Van zien naar denken: Het ontkoppelen van perceptie en redeneren verbetert de post-training van visie-taalmodellen

Samenvatting

Recente vooruitgang in visie-taalmodelen (VLMs) benadrukt lange keten-van-gedachte redeneringen; toch vinden we dat hun prestaties op visuele taken voornamelijk worden beperkt door een gebrek aan visuele perceptie in plaats van redenering zelf. In dit werk bestuderen we systematisch de wisselwerking tussen perceptie en redenering in VLM-natraining door hun capaciteiten op te splitsen in drie afzonderlijke trainingsfasen: visuele perceptie, visueel redeneren en tekstueel redeneren, met gespecialiseerde trainingsdata. We tonen aan dat visuele perceptie (a) gerichte optimalisatie vereist met gespecialiseerde data; (b) dient als een fundamentele steiger die moet worden verstevigd door gefaseerde training voordat visueel redeneren wordt verfijnd; en (c) effectiever wordt geleerd via RL dan via caption-gebaseerde SFT. Onze experimenten met meerdere VLMs tonen aan dat gefaseerde training consistent zowel visuele perceptie als redeneerprestaties verbetert ten opzichte van samengevoegde training. Opmerkelijk is dat modellen getraind met onze aanpak 1,5% hogere redeneernauwkeurigheid behalen met 20,8% kortere redeneertrajecten, wat suggereert dat superieure perceptie de behoefte aan overmatig redeneren vermindert. Verder tonen we aan dat deze op capaciteit gebaseerde fasering een nieuwe curriculumdimensie vertegenwoordigt die orthogonaal is aan traditionele op moeilijkheid gebaseerde curricula, en dat het combineren van beide verdere additieve winsten oplevert. Onze gefaseerd getrainde modellen behalen superieure prestaties onder open-gewicht VLMs, met geavanceerde resultaten op verschillende visuele wiskunde- en perceptietaken (bijv. +5,2% op WeMath en +3,7% op RealWorldQA) in vergelijking met de basisvariant.

English

Recent advances in vision-language models (VLMs) emphasize long chain-of-thought reasoning; yet, we find that their performance on visual tasks is primarily limited by a lack of visual perception as opposed to reasoning itself. In this work, we systematically study the interplay between perception and reasoning in VLM post-training by decomposing their capabilities into three separate training stages: visual perception, visual reasoning, and textual reasoning, incorporating specialized training data. We demonstrate that visual perception (a) requires targeted optimization with specialized data; (b) serves as a fundamental scaffold that should be solidified through staged training before refining visual reasoning; and (c) is more effectively learned via RL than caption-based SFT. Our experiments across multiple VLMs demonstrate that staged training consistently improves both visual perception and reasoning performance over merged training. Notably, models trained with our approach achieve 1.5% higher reasoning accuracy with 20.8% shorter reasoning traces, suggesting that superior perception reduces the need for excessive reasoning. Furthermore, we show that this capability-based staging represents a new curriculum dimension orthogonal to traditional difficulty-based curricula, and combining both yields further additive gains. Our staged-training models achieve superior performance among open-weight VLMs, establishing advanced results on several visual math and perception (e.g., +5.2% on WeMath and +3.7% on RealWorldQA) tasks compared with the base counterpart.