ViSurf: 대규모 시각-언어 모델을 위한 시각적 지도 및 강화 미세 조정
ViSurf: Visual Supervised-and-Reinforcement Fine-Tuning for Large Vision-and-Language Models
October 12, 2025
저자: Yuqi Liu, Liangyu Chen, Jiazhen Liu, Mingkang Zhu, Zhisheng Zhong, Bei Yu, Jiaya Jia
cs.AI
초록
대형 시각-언어 모델(LVLMs)의 전형적인 사후 학습 패러다임은 지도 미세 조정(Supervised Fine-Tuning, SFT)과 검증 가능한 보상을 활용한 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR)을 포함한다. SFT는 외부 지도를 활용하여 새로운 지식을 주입하는 반면, RLVR은 내부 강화를 통해 추론 능력과 전반적인 성능을 향상시킨다. 그러나 우리의 분석에 따르면, SFT는 종종 최적이 아닌 성능을 초래하는 반면, RLVR은 모델의 내부 지식 기반을 초과하는 작업에서 어려움을 겪는다. 이러한 한계를 해결하기 위해, 우리는 SFT와 RLVR의 강점을 단일 단계 내에서 통합한 통합 사후 학습 패러다임인 ViSurf(Visual Supervised-and-Reinforcement Fine-Tuning)를 제안한다. 우리는 SFT와 RLVR 목표의 유도를 분석하여 ViSurf 목표를 수립함으로써 이 두 패러다임에 대한 통합적 관점을 제공한다. ViSurf의 핵심은 RLVR 롤아웃에 실제 레이블을 주입함으로써 동시에 외부 지도와 내부 강화를 제공하는 것이다. 또한, 우리는 훈련 과정을 안정화하고 최적화하기 위해 세 가지 새로운 보상 제어 전략을 도입한다. 다양한 벤치마크에 걸친 광범위한 실험을 통해 ViSurf의 효과를 입증하였으며, 이는 개별 SFT, RLVR 및 두 단계의 SFT → RLVR을 모두 능가하는 성능을 보여준다. 심층 분석은 이러한 결과를 뒷받침하며, ViSurf의 유도 및 설계 원칙을 검증한다.
English
Typical post-training paradigms for Large Vision-and-Language Models (LVLMs)
include Supervised Fine-Tuning (SFT) and Reinforcement Learning with Verifiable
Rewards (RLVR). SFT leverages external guidance to inject new knowledge,
whereas RLVR utilizes internal reinforcement to enhance reasoning capabilities
and overall performance. However, our analysis reveals that SFT often leads to
sub-optimal performance, while RLVR struggles with tasks that exceed the
model's internal knowledge base. To address these limitations, we propose
ViSurf (Visual Supervised-and-Reinforcement
Fine-Tuning), a unified post-training paradigm that integrates the
strengths of both SFT and RLVR within a single stage. We analyze the derivation
of the SFT and RLVR objectives to establish the ViSurf objective, providing a
unified perspective on these two paradigms. The core of ViSurf involves
injecting ground-truth labels into the RLVR rollouts, thereby providing
simultaneous external supervision and internal reinforcement. Furthermore, we
introduce three novel reward control strategies to stabilize and optimize the
training process. Extensive experiments across several diverse benchmarks
demonstrate the effectiveness of ViSurf, outperforming both individual SFT,
RLVR, and two-stage SFT \textrightarrow RLVR. In-depth analysis corroborates
these findings, validating the derivation and design principles of ViSurf.