ChatPaper.aiChatPaper

RL은 SFT보다 MLLM의 시각적 이해 능력을 향상시킨다.

RL makes MLLMs see better than SFT

October 18, 2025
저자: Junha Song, Sangdoo Yun, Dongyoon Han, Jaegul Choo, Byeongho Heo
cs.AI

초록

다중모달 언어 모델(Multimodal Language Model, MLLM) 연구에서 지배적인 가정은 MLLM의 성능이 대규모 매개변수와 뛰어난 능력을 가진 LLM(대형 언어 모델) 백본에서 상속된다는 것이다. 이는 MLLM이 이미지를 어떻게 인지하는지를 결정하는 비전 인코더에 대한 이해의 공백을 초래했다. 최근 MLLM 훈련 패러다임이 지도 미세 조정(Supervised Finetuning, SFT)에서 강화 학습(Reinforcement Learning, RL)으로 전환되면서, 이러한 훈련이 비전 인코더와 MLLM을 어떻게 재구성하는지에 대한 분석이 크게 부족하다는 점이 더욱 부각되었다. 이를 해결하기 위해, 우리는 먼저 훈련 전략이 MLLM에 미치는 영향을 조사했으며, RL이 시각과 밀접한 관련이 있는 VQA(Vision Question Answering) 벤치마크에서 SFT보다 뚜렷한 우위를 보임을 확인했다. 이를 바탕으로, 우리는 ImageNet 분류 및 세분화부터 그래디언트 시각화에 이르기까지 다양한 심층 실험을 통해 MLLM의 비전 인코더에 대한 중요하면서도 미흡하게 탐구된 분석을 수행했다. 우리의 결과는 MLLM의 훈련 후 전략(즉, SFT 또는 RL)이 MLLM의 다운스트림 작업에서 뚜렷한 결과를 초래할 뿐만 아니라, MLLM의 기본 시각 표현을 근본적으로 재구성함을 보여준다. 특히, 우리 연구의 주요 발견은 RL이 SFT에 비해 더 강력하고 정확하게 지역화된 시각 표현을 생성함으로써 MLLM의 비전 인코더 능력을 향상시킨다는 것이다. 우리는 이러한 발견을 MLLM을 위한 강력한 비전 인코더 구축을 위한 간단한 레시피인 Preference-Instructed Vision OpTimization(PIVOT)으로 재구성했다. MLLM에 통합될 때, PIVOT으로 훈련된 비전 인코더는 표준 비전 사전 훈련의 계산 비용의 1% 미만을 요구하면서도 더 크고 더 많이 훈련된 대조군을 능가하는 성능을 보였다. 이 결과는 MLLM의 비전 백본을 발전시키는 효과적이고 효율적인 경로를 열어준다. 프로젝트 페이지는 https://june-page.github.io/pivot/에서 확인할 수 있다.
English
A dominant assumption in Multimodal Language Model (MLLM) research is that its performance is largely inherited from the LLM backbone, given its immense parameter scale and remarkable capabilities. This has created a void in the understanding of the vision encoder, which determines how MLLMs perceive images. The recent shift in MLLM training paradigms, from Supervised Finetuning (SFT) to Reinforcement Learning (RL), magnifies this oversight-namely, the significant lack of analysis on how such training reshapes the vision encoder as well as the MLLM. To address this, we first investigate the impact of training strategies on MLLMs, where RL shows a clear advantage over SFT in strongly vision-related VQA benchmarks. Motivated by this, we conduct a critical yet under-explored analysis of the vision encoder of MLLMs through diverse and in-depth experiments, ranging from ImageNet classification and segmentation to gradient visualization. Our results demonstrate that MLLM's post-training strategy (i.e., SFT or RL) not only leads to distinct outcomes on MLLM downstream tasks, but also fundamentally reshapes MLLM's underlying visual representations. Specifically, the key finding of our study is that RL produces stronger and precisely localized visual representations compared to SFT, boosting the ability of the vision encoder for MLLM. We then reframe our findings into a simple recipe for building strong vision encoders for MLLMs, Preference-Instructed Vision OpTimization (PIVOT). When integrated into MLLMs, a PIVOT-trained vision encoder outperforms even larger and more heavily-trained counterparts, despite requiring less than 1% of the computational cost of standard vision pretraining. This result opens an effective and efficient path for advancing the vision backbones of MLLMs. Project page available at https://june-page.github.io/pivot/
PDF392October 21, 2025