MoDoMoDo: マルチモーダルLLM強化学習のためのマルチドメインデータ混合
MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning
May 30, 2025
著者: Yiqing Liang, Jielin Qiu, Wenhao Ding, Zuxin Liu, James Tompkin, Mengdi Xu, Mengzhou Xia, Zhengzhong Tu, Laixi Shi, Jiacheng Zhu
cs.AI
要旨
検証可能な報酬を用いた強化学習(Reinforcement Learning with Verifiable Rewards, RLVR)は、最近、大規模言語モデル(LLMs)のポストトレーニングにおける強力なパラダイムとして登場し、構造化された検証可能な回答を必要とするタスクにおいて最先端の性能を達成している。RLVRをマルチモーダルLLMs(MLLMs)に適用することは、視覚と言語のタスクの広範で異質な性質、特に視覚的、論理的、空間的な能力を必要とする複雑さによって困難を伴うが、大きな可能性を秘めている。したがって、複数のデータセットを用いてRLVRでMLLMsをトレーニングすることは有益であるが、異なるデータセット間の相互作用による目的の衝突が課題となり、汎化能力と推論能力を向上させるための最適なデータセット混合戦略の必要性が浮き彫りになる。本研究では、マルチモーダルLLM RLVRのための体系的なポストトレーニングフレームワークを提案し、厳密なデータ混合問題の定式化とベンチマーク実装を特徴とする。具体的には、(1) 異なる検証可能な視覚言語問題を含むデータセットをキュレーションし、異なる検証可能な報酬を用いたマルチドメインオンラインRL学習を可能にするマルチモーダルRLVRフレームワークを開発した。(2) データ混合分布からRLファインチューニングの結果を予測し、最適な混合を最適化するデータ混合戦略を提案した。包括的な実験により、混合予測戦略と組み合わせたマルチドメインRLVRトレーニングが、MLLMsの汎用的な推論能力を大幅に向上させることが示された。最適な混合戦略は、均一なデータ混合でポストトレーニングされたモデルと比較して、分布外ベンチマークにおける精度を平均5.24%向上させ、ファインチューニング前のベースラインと比較して合計20.74%向上させた。
English
Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as
a powerful paradigm for post-training large language models (LLMs), achieving
state-of-the-art performance on tasks with structured, verifiable answers.
Applying RLVR to Multimodal LLMs (MLLMs) presents significant opportunities but
is complicated by the broader, heterogeneous nature of vision-language tasks
that demand nuanced visual, logical, and spatial capabilities. As such,
training MLLMs using RLVR on multiple datasets could be beneficial but creates
challenges with conflicting objectives from interaction among diverse datasets,
highlighting the need for optimal dataset mixture strategies to improve
generalization and reasoning. We introduce a systematic post-training framework
for Multimodal LLM RLVR, featuring a rigorous data mixture problem formulation
and benchmark implementation. Specifically, (1) We developed a multimodal RLVR
framework for multi-dataset post-training by curating a dataset that contains
different verifiable vision-language problems and enabling multi-domain online
RL learning with different verifiable rewards; (2) We proposed a data mixture
strategy that learns to predict the RL fine-tuning outcome from the data
mixture distribution, and consequently optimizes the best mixture.
Comprehensive experiments showcase that multi-domain RLVR training, when
combined with mixture prediction strategies, can significantly boost MLLM
general reasoning capacities. Our best mixture improves the post-trained
model's accuracy on out-of-distribution benchmarks by an average of 5.24%
compared to the same model post-trained with uniform data mixture, and by a
total of 20.74% compared to the pre-finetuning baseline.