ChatPaper.aiChatPaper

R1-VL: Leren redeneren met multimodale grote taalmodellen via stapsgewijze groep-relatieve beleidsoptimalisatie

R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization

March 17, 2025
Auteurs: Jingyi Zhang, Jiaxing Huang, Huanjin Yao, Shunyu Liu, Xikun Zhang, Shijian Lu, Dacheng Tao
cs.AI

Samenvatting

Recente studies verbeteren over het algemeen de redeneervaardigheden van MLLM's via supervised fine-tuning op hoogwaardige chain-of-thought redeneergegevens, wat er vaak toe leidt dat modellen succesvolle redeneerpaden slechts imiteren zonder te begrijpen wat de verkeerde redeneerpaden zijn. In dit werk streven we ernaar om de redeneervaardigheid van MLLM's te verbeteren, verder dan het passief imiteren van positieve redeneerpaden. Hiertoe ontwerpen we Step-wise Group Relative Policy Optimization (StepGRPO), een nieuw online reinforcement learning-framework dat MLLM's in staat stelt om hun redeneervaardigheid zelf te verbeteren via eenvoudige, effectieve en dichte stap-voor-stap beloningen. Specifiek introduceert StepGRPO twee nieuwe regelgebaseerde redeneerbeloningen: Step-wise Reasoning Accuracy Reward (StepRAR) en Step-wise Reasoning Validity Reward (StepRVR). StepRAR beloont redeneerpaden die noodzakelijke tussenliggende redeneerstappen bevatten via een zachte key-step matching-techniek, terwijl StepRVR redeneerpaden beloont die een goed gestructureerd en logisch consistent redeneerproces volgen via een strategie voor redeneervolledigheid en logica-evaluatie. Met het voorgestelde StepGRPO introduceren we R1-VL, een reeks MLLM's met uitstekende vaardigheden in stap-voor-stap redeneren. Uitgebreide experimenten over 8 benchmarks demonstreren de superioriteit van onze methoden.
English
Recent studies generally enhance MLLMs' reasoning capabilities via supervised fine-tuning on high-quality chain-of-thought reasoning data, which often leads models to merely imitate successful reasoning paths without understanding what the wrong reasoning paths are. In this work, we aim to enhance the MLLMs' reasoning ability beyond passively imitating positive reasoning paths. To this end, we design Step-wise Group Relative Policy Optimization (StepGRPO), a new online reinforcement learning framework that enables MLLMs to self-improve reasoning ability via simple, effective and dense step-wise rewarding. Specifically, StepGRPO introduces two novel rule-based reasoning rewards: Step-wise Reasoning Accuracy Reward (StepRAR) and Step-wise Reasoning Validity Reward (StepRVR). StepRAR rewards the reasoning paths that contain necessary intermediate reasoning steps via a soft key-step matching technique, while StepRAR rewards reasoning paths that follow a well-structured and logically consistent reasoning process through a reasoning completeness and logic evaluation strategy. With the proposed StepGRPO, we introduce R1-VL, a series of MLLMs with outstanding capabilities in step-by-step reasoning. Extensive experiments over 8 benchmarks demonstrate the superiority of our methods.

Summary

AI-Generated Summary

PDF282March 18, 2025