De Voir à Penser : Découplage de la Perception et du Raisonnement Améliore le Post-Entraînement des Modèles Vision-Langage

Résumé

Les récentes avancées dans les modèles vision-langage (VLM) mettent l'accent sur le raisonnement en chaîne de pensée longue ; pourtant, nous constatons que leurs performances sur les tâches visuelles sont principalement limitées par un manque de perception visuelle plutôt que par le raisonnement lui-même. Dans ce travail, nous étudions systématiquement l'interaction entre perception et raisonnement dans le post-entraînement des VLM en décomposant leurs capacités en trois étapes d'entraînement distinctes : la perception visuelle, le raisonnement visuel et le raisonnement textuel, intégrant des données d'entraînement spécialisées. Nous démontrons que la perception visuelle (a) nécessite une optimisation ciblée avec des données spécialisées ; (b) sert d'échafaudage fondamental qui doit être consolidé par un entraînement par étapes avant d'affiner le raisonnement visuel ; et (c) est apprise plus efficacement via l'apprentissage par renforcement (RL) que via le réglage fin supervisé (SFT) basé sur des légendes. Nos expériences sur plusieurs VLM montrent que l'entraînement par étapes améliore systématiquement à la fois la perception visuelle et les performances de raisonnement par rapport à l'entraînement fusionné. Notamment, les modèles entraînés avec notre approche atteignent une précision de raisonnement supérieure de 1,5 % avec des traces de raisonnement 20,8 % plus courtes, ce qui suggère qu'une perception supérieure réduit le besoin de raisonnement excessif. De plus, nous montrons que cette segmentation par capacités représente une nouvelle dimension de curriculum orthogonale aux curricula traditionnels basés sur la difficulté, et que leur combinaison produit des gains additifs supplémentaires. Nos modèles entraînés par étapes obtiennent des performances supérieures parmi les VLM à poids ouverts, établissant des résultats avancés sur plusieurs tâches de mathématiques visuelles et de perception (par exemple, +5,2 % sur WeMath et +3,7 % sur RealWorldQA) par rapport à leur équivalent de base.

English

Recent advances in vision-language models (VLMs) emphasize long chain-of-thought reasoning; yet, we find that their performance on visual tasks is primarily limited by a lack of visual perception as opposed to reasoning itself. In this work, we systematically study the interplay between perception and reasoning in VLM post-training by decomposing their capabilities into three separate training stages: visual perception, visual reasoning, and textual reasoning, incorporating specialized training data. We demonstrate that visual perception (a) requires targeted optimization with specialized data; (b) serves as a fundamental scaffold that should be solidified through staged training before refining visual reasoning; and (c) is more effectively learned via RL than caption-based SFT. Our experiments across multiple VLMs demonstrate that staged training consistently improves both visual perception and reasoning performance over merged training. Notably, models trained with our approach achieve 1.5% higher reasoning accuracy with 20.8% shorter reasoning traces, suggesting that superior perception reduces the need for excessive reasoning. Furthermore, we show that this capability-based staging represents a new curriculum dimension orthogonal to traditional difficulty-based curricula, and combining both yields further additive gains. Our staged-training models achieve superior performance among open-weight VLMs, establishing advanced results on several visual math and perception (e.g., +5.2% on WeMath and +3.7% on RealWorldQA) tasks compared with the base counterpart.