Visual-RFT: 視覚的強化学習によるファインチューニング
Visual-RFT: Visual Reinforcement Fine-Tuning
March 3, 2025
著者: Ziyu Liu, Zeyi Sun, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Haodong Duan, Dahua Lin, Jiaqi Wang
cs.AI
要旨
大規模推論モデルにおける強化学習ファインチューニング(Reinforcement Fine-Tuning, RFT)は、OpenAIのo1のようなモデルが自身の回答に対するフィードバックから学習する手法であり、特にファインチューニング用のデータが限られているアプリケーションにおいて有用です。DeepSeek-R1のような最近のオープンソース研究は、検証可能な報酬を用いた強化学習がo1を再現するための重要な方向性の一つであることを示しています。R1スタイルのモデルは言語モデルにおいて成功を収めていますが、マルチモーダル領域への応用はまだ十分に探求されていません。本研究では、視覚タスクにおけるRFTの応用範囲をさらに拡張するVisual Reinforcement Fine-Tuning(Visual-RFT)を提案します。具体的には、Visual-RFTはまず大規模視覚言語モデル(Large Vision-Language Models, LVLMs)を使用して、各入力に対して推論トークンと最終回答を含む複数の応答を生成し、次に提案する視覚知覚検証可能な報酬関数を用いて、Group Relative Policy Optimization(GRPO)のようなポリシー最適化アルゴリズムを通じてモデルを更新します。我々は、物体検出のためのIntersection over Union(IoU)報酬など、異なる知覚タスクに対して異なる検証可能な報酬関数を設計しました。細粒度画像分類、少数ショット物体検出、推論グラウンディング、およびオープン語彙物体検出ベンチマークにおける実験結果は、Visual-RFTが教師ありファインチューニング(Supervised Fine-tuning, SFT)と比較して競争力のある性能と高度な汎化能力を示すことを明らかにしています。例えば、Visual-RFTは約100サンプルを用いたワンショット細粒度画像分類において、ベースラインよりも24.3%の精度向上を達成しました。少数ショット物体検出においても、Visual-RFTはCOCOの2ショット設定で21.9、LVISで15.4の改善を示しました。我々のVisual-RFTは、LVLMsのファインチューニングにおけるパラダイムシフトを表しており、ドメイン固有タスクにおける推論と適応性を強化するデータ効率的で報酬駆動型のアプローチを提供します。
English
Reinforcement Fine-Tuning (RFT) in Large Reasoning Models like OpenAI o1
learns from feedback on its answers, which is especially useful in applications
when fine-tuning data is scarce. Recent open-source work like DeepSeek-R1
demonstrates that reinforcement learning with verifiable reward is one key
direction in reproducing o1. While the R1-style model has demonstrated success
in language models, its application in multi-modal domains remains
under-explored. This work introduces Visual Reinforcement Fine-Tuning
(Visual-RFT), which further extends the application areas of RFT on visual
tasks. Specifically, Visual-RFT first uses Large Vision-Language Models (LVLMs)
to generate multiple responses containing reasoning tokens and final answers
for each input, and then uses our proposed visual perception verifiable reward
functions to update the model via the policy optimization algorithm such as
Group Relative Policy Optimization (GRPO). We design different verifiable
reward functions for different perception tasks, such as the Intersection over
Union (IoU) reward for object detection. Experimental results on fine-grained
image classification, few-shot object detection, reasoning grounding, as well
as open-vocabulary object detection benchmarks show the competitive performance
and advanced generalization ability of Visual-RFT compared with Supervised
Fine-tuning (SFT). For example, Visual-RFT improves accuracy by 24.3% over
the baseline in one-shot fine-grained image classification with around 100
samples. In few-shot object detection, Visual-RFT also exceeds the baseline by
21.9 on COCO's two-shot setting and 15.4 on LVIS. Our Visual-RFT represents
a paradigm shift in fine-tuning LVLMs, offering a data-efficient, reward-driven
approach that enhances reasoning and adaptability for domain-specific tasks.Summary
AI-Generated Summary