El aprendizaje por refuerzo (RL) permite que los MLLM vean mejor que con el ajuste fino supervisado (SFT).
RL makes MLLMs see better than SFT
October 18, 2025
Autores: Junha Song, Sangdoo Yun, Dongyoon Han, Jaegul Choo, Byeongho Heo
cs.AI
Resumen
Una suposición dominante en la investigación de Modelos de Lenguaje Multimodal (MLLM, por sus siglas en inglés) es que su rendimiento se hereda en gran medida del núcleo del Modelo de Lenguaje (LLM), dado su inmensa escala de parámetros y capacidades notables. Esto ha creado un vacío en la comprensión del codificador visual, que determina cómo los MLLM perciben las imágenes. El reciente cambio en los paradigmas de entrenamiento de los MLLM, desde el Ajuste Supervisado (SFT) hasta el Aprendizaje por Refuerzo (RL), magnifica esta omisión: específicamente, la significativa falta de análisis sobre cómo dicho entrenamiento redefine tanto el codificador visual como el MLLM. Para abordar esto, primero investigamos el impacto de las estrategias de entrenamiento en los MLLM, donde el RL muestra una clara ventaja sobre el SFT en benchmarks de Preguntas y Respuestas Visuales (VQA) fuertemente relacionados con la visión. Motivados por esto, realizamos un análisis crítico y poco explorado del codificador visual de los MLLM a través de experimentos diversos y profundos, que van desde la clasificación y segmentación en ImageNet hasta la visualización de gradientes. Nuestros resultados demuestran que la estrategia de entrenamiento posterior del MLLM (es decir, SFT o RL) no solo conduce a resultados distintos en las tareas posteriores del MLLM, sino que también redefine fundamentalmente las representaciones visuales subyacentes del MLLM. Específicamente, el hallazgo clave de nuestro estudio es que el RL produce representaciones visuales más fuertes y precisamente localizadas en comparación con el SFT, potenciando la capacidad del codificador visual para el MLLM. Luego, reformulamos nuestros hallazgos en una receta simple para construir codificadores visuales robustos para MLLM, denominada Optimización Visual Guiada por Preferencias (PIVOT, por sus siglas en inglés). Cuando se integra en los MLLM, un codificador visual entrenado con PIVOT supera incluso a contrapartes más grandes y con mayor entrenamiento, a pesar de requerir menos del 1% del costo computacional del preentrenamiento visual estándar. Este resultado abre un camino efectivo y eficiente para avanzar en los núcleos visuales de los MLLM. Página del proyecto disponible en https://june-page.github.io/pivot/.
English
A dominant assumption in Multimodal Language Model (MLLM) research is that
its performance is largely inherited from the LLM backbone, given its immense
parameter scale and remarkable capabilities. This has created a void in the
understanding of the vision encoder, which determines how MLLMs perceive
images. The recent shift in MLLM training paradigms, from Supervised Finetuning
(SFT) to Reinforcement Learning (RL), magnifies this oversight-namely, the
significant lack of analysis on how such training reshapes the vision encoder
as well as the MLLM. To address this, we first investigate the impact of
training strategies on MLLMs, where RL shows a clear advantage over SFT in
strongly vision-related VQA benchmarks. Motivated by this, we conduct a
critical yet under-explored analysis of the vision encoder of MLLMs through
diverse and in-depth experiments, ranging from ImageNet classification and
segmentation to gradient visualization. Our results demonstrate that MLLM's
post-training strategy (i.e., SFT or RL) not only leads to distinct outcomes on
MLLM downstream tasks, but also fundamentally reshapes MLLM's underlying visual
representations. Specifically, the key finding of our study is that RL produces
stronger and precisely localized visual representations compared to SFT,
boosting the ability of the vision encoder for MLLM. We then reframe our
findings into a simple recipe for building strong vision encoders for MLLMs,
Preference-Instructed Vision OpTimization (PIVOT). When integrated into MLLMs,
a PIVOT-trained vision encoder outperforms even larger and more heavily-trained
counterparts, despite requiring less than 1% of the computational cost of
standard vision pretraining. This result opens an effective and efficient path
for advancing the vision backbones of MLLMs. Project page available at
https://june-page.github.io/pivot/