ChatPaper.aiChatPaper

SophiaVL-R1: Stärkung des logischen Denkens von MLLMs durch Belohnungssysteme für Denkprozesse

SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward

May 22, 2025
Autoren: Kaixuan Fan, Kaituo Feng, Haoming Lyu, Dongzhan Zhou, Xiangyu Yue
cs.AI

Zusammenfassung

Jüngste Fortschritte haben gezeigt, dass multimodale große Sprachmodelle (MLLMs) durch regelbasiertes Reinforcement Learning (RL) mit Ergebnisbelohnungen starke Fähigkeiten im logischen Denken entwickeln können. Allerdings fehlt in diesem Paradigma typischerweise eine Überwachung des Denkprozesses, der zum Endergebnis führt. Infolgedessen kann das Modell suboptimale Denkstrategien erlernen, was seine Generalisierungsfähigkeit beeinträchtigen kann. Vor diesem Hintergrund schlagen wir SophiaVL-R1 vor, um Belohnungssignale für den Denkprozess in diesem Paradigma einzuführen. Um dies zu erreichen, trainieren wir zunächst ein Denkbelohnungsmodell, das die Qualität des gesamten Denkprozesses bewertet. Da die Denkbelohnung für bestimmte Proben aufgrund von Reward Hacking unzuverlässig sein kann, schlagen wir die Trust-GRPO-Methode vor, die der Denkbelohnung während des Trainings ein Vertrauensgewicht zuweist. Dieses Gewicht wird basierend auf dem Vergleich der Denkbelohnungen von Antworten, die zu richtigen versus falschen Ergebnissen führen, berechnet, um die Auswirkungen potenziell unzuverlässiger Denkbelohnungen zu mildern. Darüber hinaus entwerfen wir eine Annealing-Trainingsstrategie, die die Denkbelohnung schrittweise reduziert, sodass das Modell in späteren Trainingsphasen stärker auf die präzise regelbasierte Ergebnisbelohnung angewiesen ist. Experimente zeigen, dass unser SophiaVL-R1 eine Reihe von MLLMs für logisches Denken auf verschiedenen Benchmarks (z. B. MathVisita, MMMU) übertrifft und starke Denk- und Generalisierungsfähigkeiten demonstriert. Bemerkenswerterweise übertrifft unser SophiaVL-R1-7B sogar LLaVA-OneVision-72B auf den meisten Benchmarks, obwohl letzteres 10-mal mehr Parameter hat. Der gesamte Code, die Modelle und Datensätze sind öffentlich unter https://github.com/kxfan2002/SophiaVL-R1 verfügbar.
English
Recent advances have shown success in eliciting strong reasoning abilities in multimodal large language models (MLLMs) through rule-based reinforcement learning (RL) with outcome rewards. However, this paradigm typically lacks supervision over the thinking process leading to the final outcome.As a result, the model may learn sub-optimal reasoning strategies, which can hinder its generalization ability. In light of this, we propose SophiaVL-R1, as an attempt to add reward signals for the thinking process in this paradigm. To achieve this, we first train a thinking reward model that evaluates the quality of the entire thinking process. Given that the thinking reward may be unreliable for certain samples due to reward hacking, we propose the Trust-GRPO method, which assigns a trustworthiness weight to the thinking reward during training. This weight is computed based on the thinking reward comparison of responses leading to correct answers versus incorrect answers, helping to mitigate the impact of potentially unreliable thinking rewards. Moreover, we design an annealing training strategy that gradually reduces the thinking reward over time, allowing the model to rely more on the accurate rule-based outcome reward in later training stages. Experiments show that our SophiaVL-R1 surpasses a series of reasoning MLLMs on various benchmarks (e.g., MathVisita, MMMU), demonstrating strong reasoning and generalization capabilities. Notably, our SophiaVL-R1-7B even outperforms LLaVA-OneVision-72B on most benchmarks, despite the latter having 10 times more parameters. All code, models, and datasets are made publicly available at https://github.com/kxfan2002/SophiaVL-R1.

Summary

AI-Generated Summary

PDF122May 23, 2025