RL ermöglicht es MLLMs, besser zu sehen als SFT.
RL makes MLLMs see better than SFT
October 18, 2025
papers.authors: Junha Song, Sangdoo Yun, Dongyoon Han, Jaegul Choo, Byeongho Heo
cs.AI
papers.abstract
Eine vorherrschende Annahme in der Forschung zu Multimodalen Sprachmodellen (MLLMs) ist, dass deren Leistung weitgehend vom zugrunde liegenden Sprachmodell (LLM) geerbt wird, insbesondere aufgrund dessen enormen Parameterumfangs und bemerkenswerten Fähigkeiten. Dies hat eine Lücke im Verständnis des Vision-Encoders geschaffen, der bestimmt, wie MLLMs Bilder wahrnehmen. Der jüngste Wechsel in den Trainingsparadigmen für MLLMs, von Supervised Fine-Tuning (SFT) zu Reinforcement Learning (RL), verstärkt diese Vernachlässigung – insbesondere den erheblichen Mangel an Analysen darüber, wie solches Training den Vision-Encoder sowie das MLLM selbst verändert. Um dies zu adressieren, untersuchen wir zunächst die Auswirkungen von Trainingsstrategien auf MLLMs, wobei RL in stark visuell geprägten VQA-Benchmarks einen klaren Vorteil gegenüber SFT zeigt. Motiviert durch diese Erkenntnis, führen wir eine kritische, jedoch bisher wenig erforschte Analyse des Vision-Encoders von MLLMs durch, die eine Vielzahl von Experimenten umfasst, von ImageNet-Klassifikation und -Segmentierung bis hin zur Gradientenvisualisierung. Unsere Ergebnisse zeigen, dass die Post-Training-Strategie des MLLMs (d. h. SFT oder RL) nicht nur zu unterschiedlichen Ergebnissen bei nachgelagerten Aufgaben führt, sondern auch die zugrunde liegenden visuellen Repräsentationen des MLLMs grundlegend verändert. Insbesondere ist die zentrale Erkenntnis unserer Studie, dass RL im Vergleich zu SFT stärkere und präziser lokalisierte visuelle Repräsentationen erzeugt, wodurch die Fähigkeiten des Vision-Encoders für MLLMs gesteigert werden. Wir formulieren unsere Erkenntnisse anschließend in ein einfaches Rezept zur Entwicklung leistungsstarker Vision-Encoder für MLLMs um, die sogenannte Preference-Instructed Vision OpTimization (PIVOT). Wenn ein PIVOT-trainierter Vision-Encoder in MLLMs integriert wird, übertrifft er sogar größere und intensiver trainierte Gegenstücke, obwohl er weniger als 1 % der Rechenkosten des Standard-Vision-Pretrainings erfordert. Dieses Ergebnis eröffnet einen effektiven und effizienten Weg zur Weiterentwicklung der Vision-Backbones von MLLMs. Die Projektseite ist verfügbar unter https://june-page.github.io/pivot/.
English
A dominant assumption in Multimodal Language Model (MLLM) research is that
its performance is largely inherited from the LLM backbone, given its immense
parameter scale and remarkable capabilities. This has created a void in the
understanding of the vision encoder, which determines how MLLMs perceive
images. The recent shift in MLLM training paradigms, from Supervised Finetuning
(SFT) to Reinforcement Learning (RL), magnifies this oversight-namely, the
significant lack of analysis on how such training reshapes the vision encoder
as well as the MLLM. To address this, we first investigate the impact of
training strategies on MLLMs, where RL shows a clear advantage over SFT in
strongly vision-related VQA benchmarks. Motivated by this, we conduct a
critical yet under-explored analysis of the vision encoder of MLLMs through
diverse and in-depth experiments, ranging from ImageNet classification and
segmentation to gradient visualization. Our results demonstrate that MLLM's
post-training strategy (i.e., SFT or RL) not only leads to distinct outcomes on
MLLM downstream tasks, but also fundamentally reshapes MLLM's underlying visual
representations. Specifically, the key finding of our study is that RL produces
stronger and precisely localized visual representations compared to SFT,
boosting the ability of the vision encoder for MLLM. We then reframe our
findings into a simple recipe for building strong vision encoders for MLLMs,
Preference-Instructed Vision OpTimization (PIVOT). When integrated into MLLMs,
a PIVOT-trained vision encoder outperforms even larger and more heavily-trained
counterparts, despite requiring less than 1% of the computational cost of
standard vision pretraining. This result opens an effective and efficient path
for advancing the vision backbones of MLLMs. Project page available at
https://june-page.github.io/pivot/