De la visión al pensamiento: el desacoplamiento de percepción y razonamiento mejora el post-entrenamiento de modelos de visión y lenguaje

Resumen

Los avances recientes en modelos de visión-lenguaje (VLMs) enfatizan el razonamiento de cadena de pensamiento largo; sin embargo, encontramos que su rendimiento en tareas visuales está limitado principalmente por una falta de percepción visual más que por el razonamiento en sí. En este trabajo, estudiamos sistemáticamente la interacción entre percepción y razonamiento en el post-entrenamiento de VLMs descomponiendo sus capacidades en tres etapas de entrenamiento separadas: percepción visual, razonamiento visual y razonamiento textual, incorporando datos de entrenamiento especializados. Demostramos que la percepción visual (a) requiere optimización dirigida con datos especializados; (b) sirve como un andamiaje fundamental que debe consolidarse mediante entrenamiento por etapas antes de refinar el razonamiento visual; y (c) se aprende de manera más efectiva mediante RL que mediante SFT basado en descripciones. Nuestros experimentos con múltiples VLMs muestran que el entrenamiento por etapas mejora consistentemente tanto la percepción visual como el rendimiento en razonamiento en comparación con el entrenamiento combinado. Notablemente, los modelos entrenados con nuestro enfoque logran un 1.5% más de precisión en razonamiento con un 20.8% menos de trazas de razonamiento, lo que sugiere que una percepción superior reduce la necesidad de razonamiento excesivo. Además, mostramos que esta segmentación basada en capacidades representa una nueva dimensión curricular ortogonal a los currículos tradicionales basados en dificultad, y combinar ambas produce ganancias adicionales aditivas. Nuestros modelos de entrenamiento por etapas alcanzan un rendimiento superior entre los VLMs de pesos abiertos, estableciendo resultados avanzados en varias tareas de matemáticas visuales y percepción (por ejemplo, +5.2% en WeMath y +3.7% en RealWorldQA) en comparación con su contraparte base.

English

Recent advances in vision-language models (VLMs) emphasize long chain-of-thought reasoning; yet, we find that their performance on visual tasks is primarily limited by a lack of visual perception as opposed to reasoning itself. In this work, we systematically study the interplay between perception and reasoning in VLM post-training by decomposing their capabilities into three separate training stages: visual perception, visual reasoning, and textual reasoning, incorporating specialized training data. We demonstrate that visual perception (a) requires targeted optimization with specialized data; (b) serves as a fundamental scaffold that should be solidified through staged training before refining visual reasoning; and (c) is more effectively learned via RL than caption-based SFT. Our experiments across multiple VLMs demonstrate that staged training consistently improves both visual perception and reasoning performance over merged training. Notably, models trained with our approach achieve 1.5% higher reasoning accuracy with 20.8% shorter reasoning traces, suggesting that superior perception reduces the need for excessive reasoning. Furthermore, we show that this capability-based staging represents a new curriculum dimension orthogonal to traditional difficulty-based curricula, and combining both yields further additive gains. Our staged-training models achieve superior performance among open-weight VLMs, establishing advanced results on several visual math and perception (e.g., +5.2% on WeMath and +3.7% on RealWorldQA) tasks compared with the base counterpart.