R1-VL: Leren redeneren met multimodale grote taalmodellen via stapsgewijze groep-relatieve beleidsoptimalisatie
R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization
March 17, 2025
Auteurs: Jingyi Zhang, Jiaxing Huang, Huanjin Yao, Shunyu Liu, Xikun Zhang, Shijian Lu, Dacheng Tao
cs.AI
Samenvatting
Recente studies verbeteren over het algemeen de redeneervaardigheden van MLLM's via supervised fine-tuning op hoogwaardige chain-of-thought redeneergegevens, wat er vaak toe leidt dat modellen succesvolle redeneerpaden slechts imiteren zonder te begrijpen wat de verkeerde redeneerpaden zijn. In dit werk streven we ernaar om de redeneervaardigheid van MLLM's te verbeteren, verder dan het passief imiteren van positieve redeneerpaden. Hiertoe ontwerpen we Step-wise Group Relative Policy Optimization (StepGRPO), een nieuw online reinforcement learning-framework dat MLLM's in staat stelt om hun redeneervaardigheid zelf te verbeteren via eenvoudige, effectieve en dichte stap-voor-stap beloningen. Specifiek introduceert StepGRPO twee nieuwe regelgebaseerde redeneerbeloningen: Step-wise Reasoning Accuracy Reward (StepRAR) en Step-wise Reasoning Validity Reward (StepRVR). StepRAR beloont redeneerpaden die noodzakelijke tussenliggende redeneerstappen bevatten via een zachte key-step matching-techniek, terwijl StepRVR redeneerpaden beloont die een goed gestructureerd en logisch consistent redeneerproces volgen via een strategie voor redeneervolledigheid en logica-evaluatie. Met het voorgestelde StepGRPO introduceren we R1-VL, een reeks MLLM's met uitstekende vaardigheden in stap-voor-stap redeneren. Uitgebreide experimenten over 8 benchmarks demonstreren de superioriteit van onze methoden.
English
Recent studies generally enhance MLLMs' reasoning capabilities via supervised
fine-tuning on high-quality chain-of-thought reasoning data, which often leads
models to merely imitate successful reasoning paths without understanding what
the wrong reasoning paths are. In this work, we aim to enhance the MLLMs'
reasoning ability beyond passively imitating positive reasoning paths. To this
end, we design Step-wise Group Relative Policy Optimization (StepGRPO), a new
online reinforcement learning framework that enables MLLMs to self-improve
reasoning ability via simple, effective and dense step-wise rewarding.
Specifically, StepGRPO introduces two novel rule-based reasoning rewards:
Step-wise Reasoning Accuracy Reward (StepRAR) and Step-wise Reasoning Validity
Reward (StepRVR). StepRAR rewards the reasoning paths that contain necessary
intermediate reasoning steps via a soft key-step matching technique, while
StepRAR rewards reasoning paths that follow a well-structured and logically
consistent reasoning process through a reasoning completeness and logic
evaluation strategy. With the proposed StepGRPO, we introduce R1-VL, a series
of MLLMs with outstanding capabilities in step-by-step reasoning. Extensive
experiments over 8 benchmarks demonstrate the superiority of our methods.Summary
AI-Generated Summary