ChatPaper.aiChatPaper

SophiaVL-R1: Rafforzamento del Ragionamento nei MLLM con Ricompensa del Pensiero

SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward

May 22, 2025
Autori: Kaixuan Fan, Kaituo Feng, Haoming Lyu, Dongzhan Zhou, Xiangyu Yue
cs.AI

Abstract

I recenti progressi hanno dimostrato successi nel suscitare forti capacità di ragionamento nei modelli linguistici multimodali di grandi dimensioni (MLLM) attraverso l'apprendimento per rinforzo (RL) basato su regole con ricompense basate sui risultati. Tuttavia, questo paradigma tipicamente manca di supervisione sul processo di pensiero che porta al risultato finale. Di conseguenza, il modello potrebbe apprendere strategie di ragionamento subottimali, che possono ostacolare la sua capacità di generalizzazione. Alla luce di ciò, proponiamo SophiaVL-R1, come un tentativo di aggiungere segnali di ricompensa per il processo di pensiero in questo paradigma. Per raggiungere questo obiettivo, addestriamo prima un modello di ricompensa del pensiero che valuta la qualità dell'intero processo di ragionamento. Dato che la ricompensa del pensiero potrebbe essere inaffidabile per certi campioni a causa del fenomeno di "reward hacking", proponiamo il metodo Trust-GRPO, che assegna un peso di affidabilità alla ricompensa del pensiero durante l'addestramento. Questo peso è calcolato basandosi sul confronto delle ricompense del pensiero tra risposte che portano a risposte corrette rispetto a quelle errate, aiutando a mitigare l'impatto di ricompense del pensiero potenzialmente inaffidabili. Inoltre, progettiamo una strategia di addestramento ad annealing che riduce gradualmente la ricompensa del pensiero nel tempo, permettendo al modello di fare maggior affidamento sulla precisa ricompensa basata su regole nei risultati nelle fasi avanzate dell'addestramento. Gli esperimenti mostrano che il nostro SophiaVL-R1 supera una serie di MLLM di ragionamento su vari benchmark (ad esempio, MathVisita, MMMU), dimostrando forti capacità di ragionamento e generalizzazione. In particolare, il nostro SophiaVL-R1-7B supera persino LLaVA-OneVision-72B sulla maggior parte dei benchmark, nonostante quest'ultimo abbia 10 volte più parametri. Tutto il codice, i modelli e i dataset sono resi pubblicamente disponibili su https://github.com/kxfan2002/SophiaVL-R1.
English
Recent advances have shown success in eliciting strong reasoning abilities in multimodal large language models (MLLMs) through rule-based reinforcement learning (RL) with outcome rewards. However, this paradigm typically lacks supervision over the thinking process leading to the final outcome.As a result, the model may learn sub-optimal reasoning strategies, which can hinder its generalization ability. In light of this, we propose SophiaVL-R1, as an attempt to add reward signals for the thinking process in this paradigm. To achieve this, we first train a thinking reward model that evaluates the quality of the entire thinking process. Given that the thinking reward may be unreliable for certain samples due to reward hacking, we propose the Trust-GRPO method, which assigns a trustworthiness weight to the thinking reward during training. This weight is computed based on the thinking reward comparison of responses leading to correct answers versus incorrect answers, helping to mitigate the impact of potentially unreliable thinking rewards. Moreover, we design an annealing training strategy that gradually reduces the thinking reward over time, allowing the model to rely more on the accurate rule-based outcome reward in later training stages. Experiments show that our SophiaVL-R1 surpasses a series of reasoning MLLMs on various benchmarks (e.g., MathVisita, MMMU), demonstrating strong reasoning and generalization capabilities. Notably, our SophiaVL-R1-7B even outperforms LLaVA-OneVision-72B on most benchmarks, despite the latter having 10 times more parameters. All code, models, and datasets are made publicly available at https://github.com/kxfan2002/SophiaVL-R1.
PDF152May 23, 2025