ChatPaper.aiChatPaper

ViSurf: 大規模視覚言語モデルのための視覚的教師あり学習と強化学習に基づくファインチューニング

ViSurf: Visual Supervised-and-Reinforcement Fine-Tuning for Large Vision-and-Language Models

October 12, 2025
著者: Yuqi Liu, Liangyu Chen, Jiazhen Liu, Mingkang Zhu, Zhisheng Zhong, Bei Yu, Jiaya Jia
cs.AI

要旨

大規模視覚言語モデル(LVLM)の典型的なポストトレーニングパラダイムには、教師ありファインチューニング(SFT)と検証可能な報酬を用いた強化学習(RLVR)が含まれる。SFTは外部のガイダンスを活用して新たな知識を注入する一方、RLVRは内部の強化学習を利用して推論能力と全体的な性能を向上させる。しかし、我々の分析によれば、SFTはしばしば最適でない性能をもたらし、RLVRはモデルの内部知識ベースを超えるタスクに苦戦する。これらの制約を解決するため、我々はViSurf(Visual Supervised-and-Reinforcement Fine-Tuning)を提案する。ViSurfは、SFTとRLVRの両方の強みを単一の段階で統合する統一的なポストトレーニングパラダイムである。我々はSFTとRLVRの目的関数の導出を分析し、ViSurfの目的関数を確立することで、これら二つのパラダイムに対する統一的な視点を提供する。ViSurfの核心は、RLVRのロールアウトに正解ラベルを注入することで、外部の監視と内部の強化学習を同時に提供することにある。さらに、トレーニングプロセスを安定化し最適化するために、三つの新しい報酬制御戦略を導入する。多様なベンチマークにわたる広範な実験により、ViSurfの有効性が実証され、個別のSFT、RLVR、および二段階のSFT→RLVRを上回る性能を示す。詳細な分析はこれらの結果を裏付け、ViSurfの導出と設計原則を検証する。
English
Typical post-training paradigms for Large Vision-and-Language Models (LVLMs) include Supervised Fine-Tuning (SFT) and Reinforcement Learning with Verifiable Rewards (RLVR). SFT leverages external guidance to inject new knowledge, whereas RLVR utilizes internal reinforcement to enhance reasoning capabilities and overall performance. However, our analysis reveals that SFT often leads to sub-optimal performance, while RLVR struggles with tasks that exceed the model's internal knowledge base. To address these limitations, we propose ViSurf (Visual Supervised-and-Reinforcement Fine-Tuning), a unified post-training paradigm that integrates the strengths of both SFT and RLVR within a single stage. We analyze the derivation of the SFT and RLVR objectives to establish the ViSurf objective, providing a unified perspective on these two paradigms. The core of ViSurf involves injecting ground-truth labels into the RLVR rollouts, thereby providing simultaneous external supervision and internal reinforcement. Furthermore, we introduce three novel reward control strategies to stabilize and optimize the training process. Extensive experiments across several diverse benchmarks demonstrate the effectiveness of ViSurf, outperforming both individual SFT, RLVR, and two-stage SFT \textrightarrow RLVR. In-depth analysis corroborates these findings, validating the derivation and design principles of ViSurf.
PDF22October 14, 2025