ChatPaper.aiChatPaper

OThink-MR1: Estimulando capacidades de raciocínio generalizado multimodal por meio de aprendizado por reforço dinâmico

OThink-MR1: Stimulating multimodal generalized reasoning capabilities via dynamic reinforcement learning

March 20, 2025
Autores: Zhiyuan Liu, Yuting Zhang, Feng Liu, Changwang Zhang, Ying Sun, Jun Wang
cs.AI

Resumo

Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm ganhado destaque significativo por sua capacidade de processar diversos tipos de dados de entrada e gerar saídas coerentes e contextualmente relevantes em várias aplicações. Embora o ajuste fino supervisionado (SFT) tenha sido a abordagem predominante para aprimorar as capacidades dos MLLMs na otimização específica de tarefas, ele frequentemente falha em promover habilidades cruciais de raciocínio generalizado. Embora o aprendizado por reforço (RL) tenha grande potencial para superar essas limitações, ele enfrenta dois desafios significativos: (1) suas capacidades generalizadas em tarefas multimodais permanecem amplamente inexploradas, e (2) suas restrições de treinamento, incluindo a divergência constante de Kullback-Leibler ou a estratégia de clamp, frequentemente resultam em gargalos subótimos. Para abordar esses desafios, propomos o OThink-MR1, um MLLM avançado equipado com capacidades profundas de compreensão e raciocínio em tarefas multimodais. Especificamente, introduzimos a Otimização de Política Relativa em Grupo com uma estratégia dinâmica de Kullback-Leibler (GRPO-D), que melhora significativamente o desempenho do aprendizado por reforço (RL). Para o Qwen2-VL-2B-Instruct, o GRPO-D alcança uma melhoria relativa de mais de 5,72% em relação ao SFT e mais de 13,59% em relação ao GRPO na avaliação de mesma tarefa em dois conjuntos de dados adaptados. Além disso, o GRPO-D demonstra capacidades notáveis de generalização entre tarefas, com uma melhoria relativa média de mais de 61,63% em relação ao SFT na avaliação entre tarefas. Esses resultados destacam que o MLLM treinado com GRPO-D em uma tarefa multimodal pode ser efetivamente transferido para outra tarefa, sublinhando as capacidades superiores de raciocínio generalizado do nosso modelo proposto, OThink-MR1.
English
Multimodal Large Language Models (MLLMs) have gained significant traction for their ability to process diverse input data types and generate coherent, contextually relevant outputs across various applications. While supervised fine-tuning (SFT) has been the predominant approach to enhance MLLM capabilities in task-specific optimization, it often falls short in fostering crucial generalized reasoning abilities. Although reinforcement learning (RL) holds great promise in overcoming these limitations, it encounters two significant challenges: (1) its generalized capacities in multimodal tasks remain largely unexplored, and (2) its training constraints, including the constant Kullback-Leibler divergence or the clamp strategy, often result in suboptimal bottlenecks. To address these challenges, we propose OThink-MR1, an advanced MLLM equipped with profound comprehension and reasoning capabilities across multimodal tasks. Specifically, we introduce Group Relative Policy Optimization with a dynamic Kullback-Leibler strategy (GRPO-D), which markedly enhances reinforcement learning (RL) performance. For Qwen2-VL-2B-Instruct, GRPO-D achieves a relative improvement of more than 5.72% over SFT and more than 13.59% over GRPO in same-task evaluation on two adapted datasets. Furthermore, GRPO-D demonstrates remarkable cross-task generalization capabilities, with an average relative improvement of more than 61.63% over SFT in cross-task evaluation. These results highlight that the MLLM trained with GRPO-D on one multimodal task can be effectively transferred to another task, underscoring the superior generalized reasoning capabilities of our proposed OThink-MR1 model.
PDF283March 31, 2025