ChatPaper.aiChatPaper

MoDoMoDo: Multi-Domain-Datenmischungen für multimodales LLM-Reinforcement-Learning

MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning

May 30, 2025
papers.authors: Yiqing Liang, Jielin Qiu, Wenhao Ding, Zuxin Liu, James Tompkin, Mengdi Xu, Mengzhou Xia, Zhengzhong Tu, Laixi Shi, Jiacheng Zhu
cs.AI

papers.abstract

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich kürzlich als ein leistungsstarkes Paradigma für das Post-Training großer Sprachmodelle (LLMs) etabliert und dabei state-of-the-art Leistungen bei Aufgaben mit strukturierten, verifizierbaren Antworten erzielt. Die Anwendung von RLVR auf multimodale LLMs (MLLMs) bietet erhebliche Chancen, ist jedoch durch die breitere, heterogene Natur von Vision-Sprache-Aufgaben erschwert, die differenzierte visuelle, logische und räumliche Fähigkeiten erfordern. Daher könnte das Training von MLLMs mit RLVR auf mehreren Datensätzen vorteilhaft sein, birgt jedoch Herausforderungen durch widersprüchliche Ziele aufgrund der Interaktion zwischen verschiedenen Datensätzen, was die Notwendigkeit optimaler Datensatzmischungsstrategien zur Verbesserung der Generalisierung und des logischen Denkens unterstreicht. Wir stellen ein systematisches Post-Training-Framework für multimodale LLM RLVR vor, das eine rigorose Formulierung des Datenmischungsproblems und eine Benchmark-Implementierung umfasst. Konkret: (1) Wir entwickelten ein multimodales RLVR-Framework für das Multi-Datensatz-Post-Training, indem wir einen Datensatz kuratierten, der verschiedene verifizierbare Vision-Sprache-Probleme enthält, und ein Multi-Domain-Online-RL-Lernen mit unterschiedlichen verifizierbaren Belohnungen ermöglichten; (2) Wir schlugen eine Datenmischungsstrategie vor, die lernt, das RL-Fine-Tuning-Ergebnis aus der Datenmischungsverteilung vorherzusagen und folglich die beste Mischung optimiert. Umfassende Experimente zeigen, dass ein Multi-Domain-RLVR-Training in Kombination mit Mischungsvorhersagestrategien die allgemeinen Denkfähigkeiten von MLLMs erheblich steigern kann. Unsere beste Mischung verbessert die Genauigkeit des post-trainierten Modells auf Out-of-Distribution-Benchmarks im Durchschnitt um 5,24 % im Vergleich zum gleichen Modell, das mit einer einheitlichen Datenmischung post-trainiert wurde, und insgesamt um 20,74 % im Vergleich zum Baseline-Modell vor dem Fine-Tuning.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as a powerful paradigm for post-training large language models (LLMs), achieving state-of-the-art performance on tasks with structured, verifiable answers. Applying RLVR to Multimodal LLMs (MLLMs) presents significant opportunities but is complicated by the broader, heterogeneous nature of vision-language tasks that demand nuanced visual, logical, and spatial capabilities. As such, training MLLMs using RLVR on multiple datasets could be beneficial but creates challenges with conflicting objectives from interaction among diverse datasets, highlighting the need for optimal dataset mixture strategies to improve generalization and reasoning. We introduce a systematic post-training framework for Multimodal LLM RLVR, featuring a rigorous data mixture problem formulation and benchmark implementation. Specifically, (1) We developed a multimodal RLVR framework for multi-dataset post-training by curating a dataset that contains different verifiable vision-language problems and enabling multi-domain online RL learning with different verifiable rewards; (2) We proposed a data mixture strategy that learns to predict the RL fine-tuning outcome from the data mixture distribution, and consequently optimizes the best mixture. Comprehensive experiments showcase that multi-domain RLVR training, when combined with mixture prediction strategies, can significantly boost MLLM general reasoning capacities. Our best mixture improves the post-trained model's accuracy on out-of-distribution benchmarks by an average of 5.24% compared to the same model post-trained with uniform data mixture, and by a total of 20.74% compared to the pre-finetuning baseline.
PDF223June 2, 2025