OThink-MR1: Estimulando capacidades de raciocínio generalizado multimodal por meio de aprendizado por reforço dinâmico
OThink-MR1: Stimulating multimodal generalized reasoning capabilities via dynamic reinforcement learning
March 20, 2025
Autores: Zhiyuan Liu, Yuting Zhang, Feng Liu, Changwang Zhang, Ying Sun, Jun Wang
cs.AI
Resumo
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm ganhado destaque significativo por sua capacidade de processar diversos tipos de dados de entrada e gerar saídas coerentes e contextualmente relevantes em várias aplicações. Embora o ajuste fino supervisionado (SFT) tenha sido a abordagem predominante para aprimorar as capacidades dos MLLMs na otimização específica de tarefas, ele frequentemente falha em promover habilidades cruciais de raciocínio generalizado. Embora o aprendizado por reforço (RL) tenha grande potencial para superar essas limitações, ele enfrenta dois desafios significativos: (1) suas capacidades generalizadas em tarefas multimodais permanecem amplamente inexploradas, e (2) suas restrições de treinamento, incluindo a divergência constante de Kullback-Leibler ou a estratégia de clamp, frequentemente resultam em gargalos subótimos. Para abordar esses desafios, propomos o OThink-MR1, um MLLM avançado equipado com capacidades profundas de compreensão e raciocínio em tarefas multimodais. Especificamente, introduzimos a Otimização de Política Relativa em Grupo com uma estratégia dinâmica de Kullback-Leibler (GRPO-D), que melhora significativamente o desempenho do aprendizado por reforço (RL). Para o Qwen2-VL-2B-Instruct, o GRPO-D alcança uma melhoria relativa de mais de 5,72% em relação ao SFT e mais de 13,59% em relação ao GRPO na avaliação de mesma tarefa em dois conjuntos de dados adaptados. Além disso, o GRPO-D demonstra capacidades notáveis de generalização entre tarefas, com uma melhoria relativa média de mais de 61,63% em relação ao SFT na avaliação entre tarefas. Esses resultados destacam que o MLLM treinado com GRPO-D em uma tarefa multimodal pode ser efetivamente transferido para outra tarefa, sublinhando as capacidades superiores de raciocínio generalizado do nosso modelo proposto, OThink-MR1.
English
Multimodal Large Language Models (MLLMs) have gained significant traction for
their ability to process diverse input data types and generate coherent,
contextually relevant outputs across various applications. While supervised
fine-tuning (SFT) has been the predominant approach to enhance MLLM
capabilities in task-specific optimization, it often falls short in fostering
crucial generalized reasoning abilities. Although reinforcement learning (RL)
holds great promise in overcoming these limitations, it encounters two
significant challenges: (1) its generalized capacities in multimodal tasks
remain largely unexplored, and (2) its training constraints, including the
constant Kullback-Leibler divergence or the clamp strategy, often result in
suboptimal bottlenecks. To address these challenges, we propose OThink-MR1, an
advanced MLLM equipped with profound comprehension and reasoning capabilities
across multimodal tasks. Specifically, we introduce Group Relative Policy
Optimization with a dynamic Kullback-Leibler strategy (GRPO-D), which markedly
enhances reinforcement learning (RL) performance. For Qwen2-VL-2B-Instruct,
GRPO-D achieves a relative improvement of more than 5.72% over SFT and more
than 13.59% over GRPO in same-task evaluation on two adapted datasets.
Furthermore, GRPO-D demonstrates remarkable cross-task generalization
capabilities, with an average relative improvement of more than 61.63% over SFT
in cross-task evaluation. These results highlight that the MLLM trained with
GRPO-D on one multimodal task can be effectively transferred to another task,
underscoring the superior generalized reasoning capabilities of our proposed
OThink-MR1 model.