L'RL consente alle MLLM di vedere meglio rispetto all'SFT.
RL makes MLLMs see better than SFT
October 18, 2025
Autori: Junha Song, Sangdoo Yun, Dongyoon Han, Jaegul Choo, Byeongho Heo
cs.AI
Abstract
Un presupposto dominante nella ricerca sui Modelli Linguistici Multimodali (MLLM) è che le loro prestazioni siano in gran parte ereditate dal backbone del Modello Linguistico (LLM), data la sua vasta scala di parametri e le sue notevoli capacità. Ciò ha creato un vuoto nella comprensione dell'encoder visivo, che determina come gli MLLM percepiscono le immagini. Il recente cambiamento nei paradigmi di addestramento degli MLLM, dalla Fine-tuning Supervisionato (SFT) all'Apprendimento per Rinforzo (RL), amplifica questa lacuna, ovvero la significativa mancanza di analisi su come tale addestramento ridisegna l'encoder visivo e l'MLLM stesso. Per affrontare questo problema, iniziamo investigando l'impatto delle strategie di addestramento sugli MLLM, dove l'RL mostra un chiaro vantaggio rispetto all'SFT nei benchmark VQA fortemente legati alla visione. Motivati da ciò, conduciamo un'analisi critica e poco esplorata dell'encoder visivo degli MLLM attraverso esperimenti diversificati e approfonditi, che vanno dalla classificazione e segmentazione su ImageNet alla visualizzazione dei gradienti. I nostri risultati dimostrano che la strategia post-addestramento dell'MLLM (cioè SFT o RL) non solo porta a risultati distinti nei task downstream degli MLLM, ma ridisegna fondamentalmente le rappresentazioni visive sottostanti dell'MLLM. In particolare, il risultato chiave del nostro studio è che l'RL produce rappresentazioni visive più forti e precisamente localizzate rispetto all'SFT, potenziando le capacità dell'encoder visivo per l'MLLM. Successivamente, riformuliamo le nostre scoperte in una semplice ricetta per costruire encoder visivi robusti per gli MLLM, chiamata Ottimizzazione Visiva Istruita dalle Preferenze (PIVOT). Quando integrato negli MLLM, un encoder visivo addestrato con PIVOT supera persino controparti più grandi e più pesantemente addestrate, nonostante richieda meno dell'1% del costo computazionale del pre-addestramento visivo standard. Questo risultato apre una via efficace ed efficiente per avanzare i backbone visivi degli MLLM. Pagina del progetto disponibile all'indirizzo https://june-page.github.io/pivot/
English
A dominant assumption in Multimodal Language Model (MLLM) research is that
its performance is largely inherited from the LLM backbone, given its immense
parameter scale and remarkable capabilities. This has created a void in the
understanding of the vision encoder, which determines how MLLMs perceive
images. The recent shift in MLLM training paradigms, from Supervised Finetuning
(SFT) to Reinforcement Learning (RL), magnifies this oversight-namely, the
significant lack of analysis on how such training reshapes the vision encoder
as well as the MLLM. To address this, we first investigate the impact of
training strategies on MLLMs, where RL shows a clear advantage over SFT in
strongly vision-related VQA benchmarks. Motivated by this, we conduct a
critical yet under-explored analysis of the vision encoder of MLLMs through
diverse and in-depth experiments, ranging from ImageNet classification and
segmentation to gradient visualization. Our results demonstrate that MLLM's
post-training strategy (i.e., SFT or RL) not only leads to distinct outcomes on
MLLM downstream tasks, but also fundamentally reshapes MLLM's underlying visual
representations. Specifically, the key finding of our study is that RL produces
stronger and precisely localized visual representations compared to SFT,
boosting the ability of the vision encoder for MLLM. We then reframe our
findings into a simple recipe for building strong vision encoders for MLLMs,
Preference-Instructed Vision OpTimization (PIVOT). When integrated into MLLMs,
a PIVOT-trained vision encoder outperforms even larger and more heavily-trained
counterparts, despite requiring less than 1% of the computational cost of
standard vision pretraining. This result opens an effective and efficient path
for advancing the vision backbones of MLLMs. Project page available at
https://june-page.github.io/pivot/