OThink-MR1 : Stimulation des capacités de raisonnement généralisé multimodal par apprentissage par renforcement dynamique
OThink-MR1: Stimulating multimodal generalized reasoning capabilities via dynamic reinforcement learning
March 20, 2025
Auteurs: Zhiyuan Liu, Yuting Zhang, Feng Liu, Changwang Zhang, Ying Sun, Jun Wang
cs.AI
Résumé
Les modèles de langage multimodaux de grande taille (MLLM) ont gagné une attention considérable pour leur capacité à traiter divers types de données d'entrée et à générer des sorties cohérentes et contextuellement pertinentes dans diverses applications. Bien que le réglage supervisé (SFT) ait été l'approche prédominante pour améliorer les capacités des MLLM dans l'optimisation spécifique à une tâche, il échoue souvent à développer des capacités de raisonnement généralisées cruciales. Bien que l'apprentissage par renforcement (RL) soit très prometteur pour surmonter ces limitations, il rencontre deux défis majeurs : (1) ses capacités généralisées dans les tâches multimodales restent largement inexplorées, et (2) ses contraintes d'entraînement, incluant la divergence de Kullback-Leibler constante ou la stratégie de clamp, entraînent souvent des goulots d'étranglement sous-optimaux. Pour relever ces défis, nous proposons OThink-MR1, un MLLM avancé doté de capacités de compréhension et de raisonnement approfondies dans les tâches multimodales. Plus précisément, nous introduisons l'optimisation de politique relative par groupe avec une stratégie dynamique de Kullback-Leibler (GRPO-D), qui améliore notablement les performances de l'apprentissage par renforcement (RL). Pour Qwen2-VL-2B-Instruct, GRPO-D obtient une amélioration relative de plus de 5,72 % par rapport au SFT et de plus de 13,59 % par rapport au GRPO dans l'évaluation de la même tâche sur deux ensembles de données adaptés. De plus, GRPO-D démontre des capacités de généralisation inter-tâches remarquables, avec une amélioration relative moyenne de plus de 61,63 % par rapport au SFT dans l'évaluation inter-tâches. Ces résultats mettent en évidence que le MLLM entraîné avec GRPO-D sur une tâche multimodale peut être efficacement transféré à une autre tâche, soulignant les capacités de raisonnement généralisées supérieures de notre modèle OThink-MR1 proposé.
English
Multimodal Large Language Models (MLLMs) have gained significant traction for
their ability to process diverse input data types and generate coherent,
contextually relevant outputs across various applications. While supervised
fine-tuning (SFT) has been the predominant approach to enhance MLLM
capabilities in task-specific optimization, it often falls short in fostering
crucial generalized reasoning abilities. Although reinforcement learning (RL)
holds great promise in overcoming these limitations, it encounters two
significant challenges: (1) its generalized capacities in multimodal tasks
remain largely unexplored, and (2) its training constraints, including the
constant Kullback-Leibler divergence or the clamp strategy, often result in
suboptimal bottlenecks. To address these challenges, we propose OThink-MR1, an
advanced MLLM equipped with profound comprehension and reasoning capabilities
across multimodal tasks. Specifically, we introduce Group Relative Policy
Optimization with a dynamic Kullback-Leibler strategy (GRPO-D), which markedly
enhances reinforcement learning (RL) performance. For Qwen2-VL-2B-Instruct,
GRPO-D achieves a relative improvement of more than 5.72% over SFT and more
than 13.59% over GRPO in same-task evaluation on two adapted datasets.
Furthermore, GRPO-D demonstrates remarkable cross-task generalization
capabilities, with an average relative improvement of more than 61.63% over SFT
in cross-task evaluation. These results highlight that the MLLM trained with
GRPO-D on one multimodal task can be effectively transferred to another task,
underscoring the superior generalized reasoning capabilities of our proposed
OThink-MR1 model.Summary
AI-Generated Summary