InternLM-XComposer2.5-Reward: シンプルで効果的なマルチモーダル報酬モデル
InternLM-XComposer2.5-Reward: A Simple Yet Effective Multi-Modal Reward Model
January 21, 2025
著者: Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Ziyu Liu, Shengyuan Ding, Shenxi Wu, Yubo Ma, Haodong Duan, Wenwei Zhang, Kai Chen, Dahua Lin, Jiaqi Wang
cs.AI
要旨
大規模ビジョン言語モデル(LVLMs)の視覚理解における有望な性能にもかかわらず、時折誤った出力を生成することがあります。強化学習やテスト時スケーリングを用いた報酬モデル(RMs)は生成品質の向上の可能性を提供しますが、重要な課題が残っています。それは、LVLMs向けの公開されているマルチモーダルRMsが少なく、プロプライエタリなモデルの実装詳細がしばしば不明瞭であることです。私たちは、InternLM-XComposer2.5-Reward(IXC-2.5-Reward)というシンプルで効果的なマルチモーダル報酬モデルを導入し、LVLMsを人間の選好と調整します。IXC-2.5-Rewardの堅牢性と汎用性を確保するために、指示の従うこと、一般的な理解、テキスト豊かな文書、数学的推論、ビデオ理解など、さまざまなドメインにまたがるテキスト、画像、ビデオ入力をカバーする高品質なマルチモーダル選好コーパスを設定しました。IXC-2.5-Rewardは、最新のマルチモーダル報酬モデルベンチマークで優れた結果を達成し、テキストのみの報酬モデルベンチマークでも競争力のあるパフォーマンスを示します。さらに、IXC-2.5-Rewardの3つの主要な応用を示します:(1)RLトレーニングのための監督信号の提供。IXC-2.5-RewardをProximal Policy Optimization(PPO)と統合することで、指示の従うこととマルチモーダルなオープンエンドダイアログで一貫した改善を示すIXC-2.5-Chatを生成します;(2)テスト時スケーリングのための候補応答から最適な応答を選択すること;および(3)既存の画像とビデオ指示チューニングトレーニングデータから外れ値やノイズのあるサンプルをフィルタリングすること。再現性を確保し、さらなる研究を促進するために、すべてのモデルの重みとトレーニングレシピをhttps://github.com/InternLM/InternLM-XComposerでオープンソース化しています。
English
Despite the promising performance of Large Vision Language Models (LVLMs) in
visual understanding, they occasionally generate incorrect outputs. While
reward models (RMs) with reinforcement learning or test-time scaling offer the
potential for improving generation quality, a critical gap remains: publicly
available multi-modal RMs for LVLMs are scarce, and the implementation details
of proprietary models are often unclear. We bridge this gap with
InternLM-XComposer2.5-Reward (IXC-2.5-Reward), a simple yet effective
multi-modal reward model that aligns LVLMs with human preferences. To ensure
the robustness and versatility of IXC-2.5-Reward, we set up a high-quality
multi-modal preference corpus spanning text, image, and video inputs across
diverse domains, such as instruction following, general understanding,
text-rich documents, mathematical reasoning, and video understanding.
IXC-2.5-Reward achieves excellent results on the latest multi-modal reward
model benchmark and shows competitive performance on text-only reward model
benchmarks. We further demonstrate three key applications of IXC-2.5-Reward:
(1) Providing a supervisory signal for RL training. We integrate IXC-2.5-Reward
with Proximal Policy Optimization (PPO) yields IXC-2.5-Chat, which shows
consistent improvements in instruction following and multi-modal open-ended
dialogue; (2) Selecting the best response from candidate responses for
test-time scaling; and (3) Filtering outlier or noisy samples from existing
image and video instruction tuning training data. To ensure reproducibility and
facilitate further research, we have open-sourced all model weights and
training recipes at https://github.com/InternLM/InternLM-XComposerSummary
AI-Generated Summary