ChatPaper.aiChatPaper

SophiaVL-R1 : Renforcement du raisonnement des MLLM grâce à une récompense de réflexion

SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward

May 22, 2025
Auteurs: Kaixuan Fan, Kaituo Feng, Haoming Lyu, Dongzhan Zhou, Xiangyu Yue
cs.AI

Résumé

Les avancées récentes ont montré des succès dans l'élicitation de fortes capacités de raisonnement dans les modèles de langage multimodaux de grande taille (MLLMs) grâce à l'apprentissage par renforcement (RL) basé sur des règles avec des récompenses de résultat. Cependant, ce paradigme manque généralement de supervision sur le processus de réflexion menant au résultat final. Par conséquent, le modèle peut apprendre des stratégies de raisonnement sous-optimales, ce qui peut entraver sa capacité de généralisation. Dans cette optique, nous proposons SophiaVL-R1, une tentative d'ajouter des signaux de récompense pour le processus de réflexion dans ce paradigme. Pour y parvenir, nous entraînons d'abord un modèle de récompense de réflexion qui évalue la qualité de l'ensemble du processus de réflexion. Étant donné que la récompense de réflexion peut être peu fiable pour certains échantillons en raison du piratage de récompense, nous proposons la méthode Trust-GRPO, qui attribue un poids de fiabilité à la récompense de réflexion pendant l'entraînement. Ce poids est calculé sur la base de la comparaison des récompenses de réflexion des réponses menant à des réponses correctes versus incorrectes, aidant à atténuer l'impact des récompenses de réflexion potentiellement peu fiables. De plus, nous concevons une stratégie d'entraînement par recuit qui réduit progressivement la récompense de réflexion au fil du temps, permettant au modèle de s'appuyer davantage sur la récompense de résultat basée sur des règles précises dans les étapes ultérieures de l'entraînement. Les expériences montrent que notre SophiaVL-R1 surpasse une série de MLLMs de raisonnement sur divers benchmarks (par exemple, MathVisita, MMMU), démontrant de solides capacités de raisonnement et de généralisation. Notamment, notre SophiaVL-R1-7B surpasse même LLaVA-OneVision-72B sur la plupart des benchmarks, bien que ce dernier ait 10 fois plus de paramètres. Tous les codes, modèles et ensembles de données sont rendus publics à l'adresse https://github.com/kxfan2002/SophiaVL-R1.
English
Recent advances have shown success in eliciting strong reasoning abilities in multimodal large language models (MLLMs) through rule-based reinforcement learning (RL) with outcome rewards. However, this paradigm typically lacks supervision over the thinking process leading to the final outcome.As a result, the model may learn sub-optimal reasoning strategies, which can hinder its generalization ability. In light of this, we propose SophiaVL-R1, as an attempt to add reward signals for the thinking process in this paradigm. To achieve this, we first train a thinking reward model that evaluates the quality of the entire thinking process. Given that the thinking reward may be unreliable for certain samples due to reward hacking, we propose the Trust-GRPO method, which assigns a trustworthiness weight to the thinking reward during training. This weight is computed based on the thinking reward comparison of responses leading to correct answers versus incorrect answers, helping to mitigate the impact of potentially unreliable thinking rewards. Moreover, we design an annealing training strategy that gradually reduces the thinking reward over time, allowing the model to rely more on the accurate rule-based outcome reward in later training stages. Experiments show that our SophiaVL-R1 surpasses a series of reasoning MLLMs on various benchmarks (e.g., MathVisita, MMMU), demonstrating strong reasoning and generalization capabilities. Notably, our SophiaVL-R1-7B even outperforms LLaVA-OneVision-72B on most benchmarks, despite the latter having 10 times more parameters. All code, models, and datasets are made publicly available at https://github.com/kxfan2002/SophiaVL-R1.

Summary

AI-Generated Summary

PDF122May 23, 2025