RL позволяет MLLM видеть лучше, чем SFT.
RL makes MLLMs see better than SFT
October 18, 2025
Авторы: Junha Song, Sangdoo Yun, Dongyoon Han, Jaegul Choo, Byeongho Heo
cs.AI
Аннотация
Доминирующее предположение в исследованиях мультимодальных языковых моделей (MLLM) заключается в том, что их производительность в значительной степени наследуется от базовой языковой модели (LLM), учитывая её огромный масштаб параметров и выдающиеся возможности. Это создало пробел в понимании роли визуального энкодера, который определяет, как MLLM воспринимают изображения. Недавний сдвиг в парадигмах обучения MLLM, от контролируемого тонкого настройки (SFT) к обучению с подкреплением (RL), усиливает это упущение — а именно, значительный недостаток анализа того, как такое обучение изменяет визуальный энкодер, а также саму MLLM. Чтобы устранить этот пробел, мы сначала исследуем влияние стратегий обучения на MLLM, где RL демонстрирует явное преимущество перед SFT в задачах, сильно связанных с визуальным восприятием, таких как VQA. Вдохновлённые этим, мы проводим критический, но недостаточно изученный анализ визуального энкодера MLLM с помощью разнообразных и глубоких экспериментов, начиная от классификации и сегментации на ImageNet до визуализации градиентов. Наши результаты показывают, что стратегия пост-обучения MLLM (т.е. SFT или RL) не только приводит к различным результатам в задачах, связанных с MLLM, но и фундаментально изменяет лежащие в основе визуальные представления. В частности, ключевой вывод нашего исследования заключается в том, что RL создаёт более сильные и точно локализованные визуальные представления по сравнению с SFT, повышая способности визуального энкодера для MLLM. Затем мы переосмысливаем наши выводы в виде простого рецепта для создания мощных визуальных энкодеров для MLLM — Preference-Instructed Vision OpTimization (PIVOT). При интеграции в MLLM, визуальный энкодер, обученный с использованием PIVOT, превосходит даже более крупные и интенсивно обученные аналоги, несмотря на то, что требует менее 1% вычислительных затрат по сравнению со стандартным предварительным обучением визуальных моделей. Этот результат открывает эффективный и экономичный путь для улучшения визуальных компонентов MLLM. Страница проекта доступна по адресу https://june-page.github.io/pivot/.
English
A dominant assumption in Multimodal Language Model (MLLM) research is that
its performance is largely inherited from the LLM backbone, given its immense
parameter scale and remarkable capabilities. This has created a void in the
understanding of the vision encoder, which determines how MLLMs perceive
images. The recent shift in MLLM training paradigms, from Supervised Finetuning
(SFT) to Reinforcement Learning (RL), magnifies this oversight-namely, the
significant lack of analysis on how such training reshapes the vision encoder
as well as the MLLM. To address this, we first investigate the impact of
training strategies on MLLMs, where RL shows a clear advantage over SFT in
strongly vision-related VQA benchmarks. Motivated by this, we conduct a
critical yet under-explored analysis of the vision encoder of MLLMs through
diverse and in-depth experiments, ranging from ImageNet classification and
segmentation to gradient visualization. Our results demonstrate that MLLM's
post-training strategy (i.e., SFT or RL) not only leads to distinct outcomes on
MLLM downstream tasks, but also fundamentally reshapes MLLM's underlying visual
representations. Specifically, the key finding of our study is that RL produces
stronger and precisely localized visual representations compared to SFT,
boosting the ability of the vision encoder for MLLM. We then reframe our
findings into a simple recipe for building strong vision encoders for MLLMs,
Preference-Instructed Vision OpTimization (PIVOT). When integrated into MLLMs,
a PIVOT-trained vision encoder outperforms even larger and more heavily-trained
counterparts, despite requiring less than 1% of the computational cost of
standard vision pretraining. This result opens an effective and efficient path
for advancing the vision backbones of MLLMs. Project page available at
https://june-page.github.io/pivot/