RLはSFTよりもMLLMの視覚性能を向上させる
RL makes MLLMs see better than SFT
October 18, 2025
著者: Junha Song, Sangdoo Yun, Dongyoon Han, Jaegul Choo, Byeongho Heo
cs.AI
要旨
マルチモーダル言語モデル(MLLM)研究における支配的な仮定は、その性能が主に大規模なパラメータ数と卓越した能力を持つLLMバックボーンから継承されているというものである。これにより、MLLMが画像をどのように知覚するかを決定するビジョンエンコーダの理解に空白が生じている。最近のMLLMトレーニングパラダイムの変化、すなわち教師ありファインチューニング(SFT)から強化学習(RL)への移行は、この見落としをさらに顕著にしている。具体的には、そのようなトレーニングがビジョンエンコーダおよびMLLMをどのように再形成するかに関する分析が著しく不足している。この問題に対処するため、我々はまずトレーニング戦略がMLLMに与える影響を調査し、RLがSFTよりも視覚関連のVQAベンチマークで明確な優位性を示すことを確認した。これに動機づけられ、我々はMLLMのビジョンエンコーダに対する重要でありながら未開拓の分析を、ImageNet分類やセグメンテーションから勾配可視化まで多様かつ深い実験を通じて行った。その結果、MLLMのポストトレーニング戦略(すなわちSFTまたはRL)が、MLLMの下流タスクにおいて異なる結果をもたらすだけでなく、MLLMの基盤となる視覚表現を根本的に再形成することが明らかになった。具体的には、我々の研究の重要な発見として、RLがSFTと比較してより強力で正確に局在化された視覚表現を生成し、MLLMのビジョンエンコーダの能力を向上させることが示された。我々はこれらの発見を、MLLMのための強力なビジョンエンコーダを構築するためのシンプルなレシピ、Preference-Instructed Vision OpTimization(PIVOT)として再構築した。MLLMに統合された場合、PIVOTでトレーニングされたビジョンエンコーダは、標準的なビジョンプリトレーニングの計算コストの1%未満で、より大規模で高度にトレーニングされた対照モデルを上回る性能を示した。この結果は、MLLMのビジョンバックボーンを進化させるための効果的かつ効率的な道を開くものである。プロジェクトページはhttps://june-page.github.io/pivot/で公開されている。
English
A dominant assumption in Multimodal Language Model (MLLM) research is that
its performance is largely inherited from the LLM backbone, given its immense
parameter scale and remarkable capabilities. This has created a void in the
understanding of the vision encoder, which determines how MLLMs perceive
images. The recent shift in MLLM training paradigms, from Supervised Finetuning
(SFT) to Reinforcement Learning (RL), magnifies this oversight-namely, the
significant lack of analysis on how such training reshapes the vision encoder
as well as the MLLM. To address this, we first investigate the impact of
training strategies on MLLMs, where RL shows a clear advantage over SFT in
strongly vision-related VQA benchmarks. Motivated by this, we conduct a
critical yet under-explored analysis of the vision encoder of MLLMs through
diverse and in-depth experiments, ranging from ImageNet classification and
segmentation to gradient visualization. Our results demonstrate that MLLM's
post-training strategy (i.e., SFT or RL) not only leads to distinct outcomes on
MLLM downstream tasks, but also fundamentally reshapes MLLM's underlying visual
representations. Specifically, the key finding of our study is that RL produces
stronger and precisely localized visual representations compared to SFT,
boosting the ability of the vision encoder for MLLM. We then reframe our
findings into a simple recipe for building strong vision encoders for MLLMs,
Preference-Instructed Vision OpTimization (PIVOT). When integrated into MLLMs,
a PIVOT-trained vision encoder outperforms even larger and more heavily-trained
counterparts, despite requiring less than 1% of the computational cost of
standard vision pretraining. This result opens an effective and efficient path
for advancing the vision backbones of MLLMs. Project page available at
https://june-page.github.io/pivot/