Le RL permet aux MLLM de voir mieux que le SFT.
RL makes MLLMs see better than SFT
October 18, 2025
papers.authors: Junha Song, Sangdoo Yun, Dongyoon Han, Jaegul Choo, Byeongho Heo
cs.AI
papers.abstract
Une hypothèse dominante dans la recherche sur les modèles de langage multimodaux (MLLM) est que leurs performances sont largement héritées de l'architecture de base du modèle de langage (LLM), étant donné son échelle de paramètres immense et ses capacités remarquables. Cela a créé un vide dans la compréhension de l'encodeur visuel, qui détermine la manière dont les MLLM perçoivent les images. Le récent changement de paradigme dans l'entraînement des MLLM, passant du Fine-Tuning Supervisé (SFT) à l'Apprentissage par Renforcement (RL), amplifie cette lacune, à savoir le manque significatif d'analyse sur la manière dont un tel entraînement redéfinit l'encodeur visuel ainsi que le MLLM. Pour y remédier, nous étudions d'abord l'impact des stratégies d'entraînement sur les MLLM, où l'RL montre un avantage clair par rapport au SFT dans des benchmarks de Question-Réponse Visuelle (VQA) fortement liés à la vision. Motivés par cela, nous menons une analyse critique et encore peu explorée de l'encodeur visuel des MLLM à travers des expériences variées et approfondies, allant de la classification et segmentation sur ImageNet à la visualisation des gradients. Nos résultats démontrent que la stratégie post-entraînement des MLLM (c'est-à-dire SFT ou RL) non seulement conduit à des résultats distincts sur les tâches en aval des MLLM, mais redéfinit également fondamentalement les représentations visuelles sous-jacentes des MLLM. Plus précisément, la découverte clé de notre étude est que l'RL produit des représentations visuelles plus fortes et précisément localisées par rapport au SFT, renforçant ainsi les capacités de l'encodeur visuel pour les MLLM. Nous reformulons ensuite nos conclusions en une recette simple pour construire des encodeurs visuels performants pour les MLLM, appelée Optimisation Visuelle Guidée par les Préférences (PIVOT). Lorsqu'il est intégré dans les MLLM, un encodeur visuel entraîné avec PIVOT surpasse même des modèles plus grands et plus intensément entraînés, malgré un coût de calcul inférieur à 1 % de celui du pré-entraînement visuel standard. Ce résultat ouvre une voie efficace et efficiente pour faire progresser les architectures visuelles des MLLM. Page du projet disponible à l'adresse suivante : https://june-page.github.io/pivot/
English
A dominant assumption in Multimodal Language Model (MLLM) research is that
its performance is largely inherited from the LLM backbone, given its immense
parameter scale and remarkable capabilities. This has created a void in the
understanding of the vision encoder, which determines how MLLMs perceive
images. The recent shift in MLLM training paradigms, from Supervised Finetuning
(SFT) to Reinforcement Learning (RL), magnifies this oversight-namely, the
significant lack of analysis on how such training reshapes the vision encoder
as well as the MLLM. To address this, we first investigate the impact of
training strategies on MLLMs, where RL shows a clear advantage over SFT in
strongly vision-related VQA benchmarks. Motivated by this, we conduct a
critical yet under-explored analysis of the vision encoder of MLLMs through
diverse and in-depth experiments, ranging from ImageNet classification and
segmentation to gradient visualization. Our results demonstrate that MLLM's
post-training strategy (i.e., SFT or RL) not only leads to distinct outcomes on
MLLM downstream tasks, but also fundamentally reshapes MLLM's underlying visual
representations. Specifically, the key finding of our study is that RL produces
stronger and precisely localized visual representations compared to SFT,
boosting the ability of the vision encoder for MLLM. We then reframe our
findings into a simple recipe for building strong vision encoders for MLLMs,
Preference-Instructed Vision OpTimization (PIVOT). When integrated into MLLMs,
a PIVOT-trained vision encoder outperforms even larger and more heavily-trained
counterparts, despite requiring less than 1% of the computational cost of
standard vision pretraining. This result opens an effective and efficient path
for advancing the vision backbones of MLLMs. Project page available at
https://june-page.github.io/pivot/