RL zorgt ervoor dat MLLMs beter zien dan SFT.
RL makes MLLMs see better than SFT
October 18, 2025
Auteurs: Junha Song, Sangdoo Yun, Dongyoon Han, Jaegul Choo, Byeongho Heo
cs.AI
Samenvatting
Een dominante aanname in onderzoek naar Multimodale Taalmodellen (MLLM) is dat de prestaties grotendeels worden geërfd van het LLM-backbone, gezien de enorme parameterschaal en opmerkelijke capaciteiten. Dit heeft een leemte gecreëerd in het begrip van de visuele encoder, die bepaalt hoe MLLM's afbeeldingen waarnemen. De recente verschuiving in MLLM-trainingsparadigma's, van Supervised Finetuning (SFT) naar Reinforcement Learning (RL), vergroot dit gebrek aan aandacht—met name het significante gebrek aan analyse over hoe dergelijke training zowel de visuele encoder als de MLLM hervormt. Om dit aan te pakken, onderzoeken we eerst de impact van trainingsstrategieën op MLLM's, waarbij RL een duidelijk voordeel laat zien ten opzichte van SFT in sterk visueel gerelateerde VQA-benchmarks. Gemotiveerd door dit resultaat, voeren we een kritische maar onderbelichte analyse uit van de visuele encoder van MLLM's via diverse en diepgaande experimenten, variërend van ImageNet-classificatie en segmentatie tot gradientvisualisatie. Onze resultaten tonen aan dat de post-trainingsstrategie van MLLM's (d.w.z. SFT of RL) niet alleen leidt tot verschillende uitkomsten bij downstream taken van MLLM's, maar ook fundamenteel de onderliggende visuele representaties van MLLM's hervormt. Specifiek is de belangrijkste bevinding van ons onderzoek dat RL sterkere en preciezer gelokaliseerde visuele representaties produceert vergeleken met SFT, wat het vermogen van de visuele encoder voor MLLM's versterkt. Vervatten we onze bevindingen in een eenvoudig recept voor het bouwen van sterke visuele encoders voor MLLM's, Preference-Instructed Vision OpTimization (PIVOT). Wanneer geïntegreerd in MLLM's, presteert een met PIVOT getrainde visuele encoder beter dan zelfs grotere en zwaarder getrainde tegenhangers, ondanks dat het minder dan 1% van de rekenkosten van standaard visuele pretraining vereist. Dit resultaat opent een effectief en efficiënt pad voor het verbeteren van de visuele backbones van MLLM's. Projectpagina beschikbaar op https://june-page.github.io/pivot/.
English
A dominant assumption in Multimodal Language Model (MLLM) research is that
its performance is largely inherited from the LLM backbone, given its immense
parameter scale and remarkable capabilities. This has created a void in the
understanding of the vision encoder, which determines how MLLMs perceive
images. The recent shift in MLLM training paradigms, from Supervised Finetuning
(SFT) to Reinforcement Learning (RL), magnifies this oversight-namely, the
significant lack of analysis on how such training reshapes the vision encoder
as well as the MLLM. To address this, we first investigate the impact of
training strategies on MLLMs, where RL shows a clear advantage over SFT in
strongly vision-related VQA benchmarks. Motivated by this, we conduct a
critical yet under-explored analysis of the vision encoder of MLLMs through
diverse and in-depth experiments, ranging from ImageNet classification and
segmentation to gradient visualization. Our results demonstrate that MLLM's
post-training strategy (i.e., SFT or RL) not only leads to distinct outcomes on
MLLM downstream tasks, but also fundamentally reshapes MLLM's underlying visual
representations. Specifically, the key finding of our study is that RL produces
stronger and precisely localized visual representations compared to SFT,
boosting the ability of the vision encoder for MLLM. We then reframe our
findings into a simple recipe for building strong vision encoders for MLLMs,
Preference-Instructed Vision OpTimization (PIVOT). When integrated into MLLMs,
a PIVOT-trained vision encoder outperforms even larger and more heavily-trained
counterparts, despite requiring less than 1% of the computational cost of
standard vision pretraining. This result opens an effective and efficient path
for advancing the vision backbones of MLLMs. Project page available at
https://june-page.github.io/pivot/