ChatPaper.aiChatPaper

SophiaVL-R1: Reforzando el razonamiento de MLLMs con recompensas de pensamiento

SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward

May 22, 2025
Autores: Kaixuan Fan, Kaituo Feng, Haoming Lyu, Dongzhan Zhou, Xiangyu Yue
cs.AI

Resumen

Los avances recientes han demostrado éxito en la elicitación de fuertes capacidades de razonamiento en modelos de lenguaje multimodal de gran escala (MLLMs) mediante el aprendizaje por refuerzo (RL) basado en reglas con recompensas de resultado. Sin embargo, este paradigma generalmente carece de supervisión sobre el proceso de pensamiento que conduce al resultado final. Como consecuencia, el modelo puede aprender estrategias de razonamiento subóptimas, lo que puede obstaculizar su capacidad de generalización. En vista de esto, proponemos SophiaVL-R1 como un intento de añadir señales de recompensa para el proceso de pensamiento en este paradigma. Para lograrlo, primero entrenamos un modelo de recompensa de pensamiento que evalúa la calidad de todo el proceso de pensamiento. Dado que la recompensa de pensamiento puede ser poco confiable para ciertas muestras debido al "hacking" de recompensas, proponemos el método Trust-GRPO, que asigna un peso de confiabilidad a la recompensa de pensamiento durante el entrenamiento. Este peso se calcula en función de la comparación de recompensas de pensamiento entre respuestas que conducen a respuestas correctas versus incorrectas, ayudando a mitigar el impacto de recompensas de pensamiento potencialmente poco confiables. Además, diseñamos una estrategia de entrenamiento con enfriamiento que reduce gradualmente la recompensa de pensamiento con el tiempo, permitiendo que el modelo dependa más de la recompensa de resultado basada en reglas, que es más precisa, en las etapas posteriores del entrenamiento. Los experimentos muestran que nuestro SophiaVL-R1 supera a una serie de MLLMs de razonamiento en varios benchmarks (por ejemplo, MathVisita, MMMU), demostrando fuertes capacidades de razonamiento y generalización. Notablemente, nuestro SophiaVL-R1-7B incluso supera a LLaVA-OneVision-72B en la mayoría de los benchmarks, a pesar de que este último tiene 10 veces más parámetros. Todo el código, modelos y conjuntos de datos están disponibles públicamente en https://github.com/kxfan2002/SophiaVL-R1.
English
Recent advances have shown success in eliciting strong reasoning abilities in multimodal large language models (MLLMs) through rule-based reinforcement learning (RL) with outcome rewards. However, this paradigm typically lacks supervision over the thinking process leading to the final outcome.As a result, the model may learn sub-optimal reasoning strategies, which can hinder its generalization ability. In light of this, we propose SophiaVL-R1, as an attempt to add reward signals for the thinking process in this paradigm. To achieve this, we first train a thinking reward model that evaluates the quality of the entire thinking process. Given that the thinking reward may be unreliable for certain samples due to reward hacking, we propose the Trust-GRPO method, which assigns a trustworthiness weight to the thinking reward during training. This weight is computed based on the thinking reward comparison of responses leading to correct answers versus incorrect answers, helping to mitigate the impact of potentially unreliable thinking rewards. Moreover, we design an annealing training strategy that gradually reduces the thinking reward over time, allowing the model to rely more on the accurate rule-based outcome reward in later training stages. Experiments show that our SophiaVL-R1 surpasses a series of reasoning MLLMs on various benchmarks (e.g., MathVisita, MMMU), demonstrating strong reasoning and generalization capabilities. Notably, our SophiaVL-R1-7B even outperforms LLaVA-OneVision-72B on most benchmarks, despite the latter having 10 times more parameters. All code, models, and datasets are made publicly available at https://github.com/kxfan2002/SophiaVL-R1.

Summary

AI-Generated Summary

PDF122May 23, 2025