ChatPaper.aiChatPaper

O RL faz com que os MLLMs vejam melhor do que o SFT.

RL makes MLLMs see better than SFT

October 18, 2025
Autores: Junha Song, Sangdoo Yun, Dongyoon Han, Jaegul Choo, Byeongho Heo
cs.AI

Resumo

Uma suposição dominante na pesquisa de Modelos de Linguagem Multimodal (MLLM) é que seu desempenho é amplamente herdado do backbone de Modelo de Linguagem (LLM), dado sua imensa escala de parâmetros e capacidades notáveis. Isso criou uma lacuna na compreensão do codificador de visão, que determina como os MLLMs percebem imagens. A recente mudança nos paradigmas de treinamento de MLLMs, de Ajuste Fino Supervisionado (SFT) para Aprendizado por Reforço (RL), amplifica essa negligência — especificamente, a significativa falta de análise sobre como tal treinamento remodela o codificador de visão, bem como o MLLM. Para abordar isso, primeiro investigamos o impacto das estratégias de treinamento em MLLMs, onde o RL mostra uma clara vantagem sobre o SFT em benchmarks de VQA fortemente relacionados à visão. Motivados por isso, conduzimos uma análise crítica e ainda pouco explorada do codificador de visão de MLLMs por meio de experimentos diversos e aprofundados, variando de classificação e segmentação no ImageNet até visualização de gradientes. Nossos resultados demonstram que a estratégia pós-treinamento do MLLM (ou seja, SFT ou RL) não apenas leva a resultados distintos em tarefas subsequentes do MLLM, mas também remodela fundamentalmente as representações visuais subjacentes do MLLM. Especificamente, a principal descoberta do nosso estudo é que o RL produz representações visuais mais fortes e precisamente localizadas em comparação com o SFT, impulsionando a capacidade do codificador de visão para o MLLM. Em seguida, reformulamos nossas descobertas em uma receita simples para construir codificadores de visão robustos para MLLMs, a Otimização de Visão Orientada por Preferência (PIVOT). Quando integrado em MLLMs, um codificador de visão treinado com PIVOT supera até mesmo contrapartes maiores e mais intensamente treinadas, apesar de exigir menos de 1% do custo computacional do pré-treinamento visual padrão. Esse resultado abre um caminho eficaz e eficiente para avançar os backbones de visão dos MLLMs. Página do projeto disponível em https://june-page.github.io/pivot/.
English
A dominant assumption in Multimodal Language Model (MLLM) research is that its performance is largely inherited from the LLM backbone, given its immense parameter scale and remarkable capabilities. This has created a void in the understanding of the vision encoder, which determines how MLLMs perceive images. The recent shift in MLLM training paradigms, from Supervised Finetuning (SFT) to Reinforcement Learning (RL), magnifies this oversight-namely, the significant lack of analysis on how such training reshapes the vision encoder as well as the MLLM. To address this, we first investigate the impact of training strategies on MLLMs, where RL shows a clear advantage over SFT in strongly vision-related VQA benchmarks. Motivated by this, we conduct a critical yet under-explored analysis of the vision encoder of MLLMs through diverse and in-depth experiments, ranging from ImageNet classification and segmentation to gradient visualization. Our results demonstrate that MLLM's post-training strategy (i.e., SFT or RL) not only leads to distinct outcomes on MLLM downstream tasks, but also fundamentally reshapes MLLM's underlying visual representations. Specifically, the key finding of our study is that RL produces stronger and precisely localized visual representations compared to SFT, boosting the ability of the vision encoder for MLLM. We then reframe our findings into a simple recipe for building strong vision encoders for MLLMs, Preference-Instructed Vision OpTimization (PIVOT). When integrated into MLLMs, a PIVOT-trained vision encoder outperforms even larger and more heavily-trained counterparts, despite requiring less than 1% of the computational cost of standard vision pretraining. This result opens an effective and efficient path for advancing the vision backbones of MLLMs. Project page available at https://june-page.github.io/pivot/
PDF392October 21, 2025