ChatPaper.aiChatPaper

OThink-MR1: Het stimuleren van multimodale gegeneraliseerde redeneervaardigheden via dynamisch reinforcement learning

OThink-MR1: Stimulating multimodal generalized reasoning capabilities via dynamic reinforcement learning

March 20, 2025
Auteurs: Zhiyuan Liu, Yuting Zhang, Feng Liu, Changwang Zhang, Ying Sun, Jun Wang
cs.AI

Samenvatting

Multimodale Large Language Models (MLLMs) hebben aanzienlijke aandacht gekregen vanwege hun vermogen om diverse soorten invoergegevens te verwerken en samenhangende, contextueel relevante uitvoer te genereren voor verschillende toepassingen. Hoewel supervised fine-tuning (SFT) de overheersende benadering is geweest om de mogelijkheden van MLLMs te verbeteren voor taakspecifieke optimalisatie, schiet het vaak tekort in het bevorderen van cruciale gegeneraliseerde redeneervaardigheden. Hoewel reinforcement learning (RL) veelbelovend is om deze beperkingen te overwinnen, stuit het op twee belangrijke uitdagingen: (1) de gegeneraliseerde capaciteiten in multimodale taken zijn grotendeels onontgonnen, en (2) de trainingsbeperkingen, waaronder de constante Kullback-Leibler-divergentie of de clamp-strategie, resulteren vaak in suboptimale knelpunten. Om deze uitdagingen aan te pakken, stellen we OThink-MR1 voor, een geavanceerde MLLM die is uitgerust met diepgaand begrip en redeneervaardigheden voor multimodale taken. Specifiek introduceren we Group Relative Policy Optimization met een dynamische Kullback-Leibler-strategie (GRPO-D), die de prestaties van reinforcement learning (RL) aanzienlijk verbetert. Voor Qwen2-VL-2B-Instruct behaalt GRPO-D een relatieve verbetering van meer dan 5,72% ten opzichte van SFT en meer dan 13,59% ten opzichte van GRPO in dezelfde-taakevaluatie op twee aangepaste datasets. Bovendien toont GRPO-D opmerkelijke cross-task generalisatiecapaciteiten, met een gemiddelde relatieve verbetering van meer dan 61,63% ten opzichte van SFT in cross-task evaluatie. Deze resultaten benadrukken dat de MLLM die met GRPO-D is getraind op één multimodale taak effectief kan worden overgedragen naar een andere taak, wat de superieure gegeneraliseerde redeneervaardigheden van ons voorgestelde OThink-MR1-model onderstreept.
English
Multimodal Large Language Models (MLLMs) have gained significant traction for their ability to process diverse input data types and generate coherent, contextually relevant outputs across various applications. While supervised fine-tuning (SFT) has been the predominant approach to enhance MLLM capabilities in task-specific optimization, it often falls short in fostering crucial generalized reasoning abilities. Although reinforcement learning (RL) holds great promise in overcoming these limitations, it encounters two significant challenges: (1) its generalized capacities in multimodal tasks remain largely unexplored, and (2) its training constraints, including the constant Kullback-Leibler divergence or the clamp strategy, often result in suboptimal bottlenecks. To address these challenges, we propose OThink-MR1, an advanced MLLM equipped with profound comprehension and reasoning capabilities across multimodal tasks. Specifically, we introduce Group Relative Policy Optimization with a dynamic Kullback-Leibler strategy (GRPO-D), which markedly enhances reinforcement learning (RL) performance. For Qwen2-VL-2B-Instruct, GRPO-D achieves a relative improvement of more than 5.72% over SFT and more than 13.59% over GRPO in same-task evaluation on two adapted datasets. Furthermore, GRPO-D demonstrates remarkable cross-task generalization capabilities, with an average relative improvement of more than 61.63% over SFT in cross-task evaluation. These results highlight that the MLLM trained with GRPO-D on one multimodal task can be effectively transferred to another task, underscoring the superior generalized reasoning capabilities of our proposed OThink-MR1 model.
PDF273March 31, 2025