SophiaVL-R1: Versterking van MLLM-redenering met Denkbeloning
SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward
May 22, 2025
Auteurs: Kaixuan Fan, Kaituo Feng, Haoming Lyu, Dongzhan Zhou, Xiangyu Yue
cs.AI
Samenvatting
Recente ontwikkelingen hebben succes getoond in het oproepen van sterke redeneervaardigheden in multimodale grote taalmodellen (MLLMs) door middel van regelgebaseerd reinforcement learning (RL) met uitkomstbeloningen. Dit paradigma ontbeert echter meestal toezicht op het denkproces dat tot het eindresultaat leidt. Hierdoor kan het model suboptimale redeneerstrategieën aanleren, wat het generalisatievermogen kan belemmeren. Gezien dit, stellen we SophiaVL-R1 voor, als een poging om beloningssignalen voor het denkproces in dit paradigma toe te voegen. Om dit te bereiken, trainen we eerst een denkbeloningsmodel dat de kwaliteit van het gehele denkproces evalueert. Gezien dat de denkbeloning voor bepaalde voorbeelden onbetrouwbaar kan zijn vanwege beloningsmanipulatie, stellen we de Trust-GRPO-methode voor, die een betrouwbaarheidsgewicht toekent aan de denkbeloning tijdens de training. Dit gewicht wordt berekend op basis van de denkbeloningsvergelijking van reacties die tot correcte versus incorrecte antwoorden leiden, wat helpt om de impact van mogelijk onbetrouwbare denkbeloningen te verminderen. Bovendien ontwerpen we een uitdovende trainingsstrategie die de denkbeloning geleidelijk vermindert, waardoor het model in latere trainingsfasen meer kan vertrouwen op de nauwkeurige regelgebaseerde uitkomstbeloning. Experimenten tonen aan dat onze SophiaVL-R1 een reeks redeneerende MLLMs overtreft op verschillende benchmarks (bijv. MathVisita, MMMU), wat sterke redeneer- en generalisatiecapaciteiten aantoont. Opmerkelijk is dat onze SophiaVL-R1-7B zelfs LLaVA-OneVision-72B overtreft op de meeste benchmarks, ondanks dat de laatste 10 keer meer parameters heeft. Alle code, modellen en datasets zijn openbaar beschikbaar gemaakt op https://github.com/kxfan2002/SophiaVL-R1.
English
Recent advances have shown success in eliciting strong reasoning abilities in
multimodal large language models (MLLMs) through rule-based reinforcement
learning (RL) with outcome rewards. However, this paradigm typically lacks
supervision over the thinking process leading to the final outcome.As a result,
the model may learn sub-optimal reasoning strategies, which can hinder its
generalization ability. In light of this, we propose SophiaVL-R1, as an attempt
to add reward signals for the thinking process in this paradigm. To achieve
this, we first train a thinking reward model that evaluates the quality of the
entire thinking process. Given that the thinking reward may be unreliable for
certain samples due to reward hacking, we propose the Trust-GRPO method, which
assigns a trustworthiness weight to the thinking reward during training. This
weight is computed based on the thinking reward comparison of responses leading
to correct answers versus incorrect answers, helping to mitigate the impact of
potentially unreliable thinking rewards. Moreover, we design an annealing
training strategy that gradually reduces the thinking reward over time,
allowing the model to rely more on the accurate rule-based outcome reward in
later training stages. Experiments show that our SophiaVL-R1 surpasses a series
of reasoning MLLMs on various benchmarks (e.g., MathVisita, MMMU),
demonstrating strong reasoning and generalization capabilities. Notably, our
SophiaVL-R1-7B even outperforms LLaVA-OneVision-72B on most benchmarks, despite
the latter having 10 times more parameters. All code, models, and datasets are
made publicly available at https://github.com/kxfan2002/SophiaVL-R1.