SophiaVL-R1: Reforçando o Raciocínio de MLLMs com Recompensa de Pensamento
SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward
May 22, 2025
Autores: Kaixuan Fan, Kaituo Feng, Haoming Lyu, Dongzhan Zhou, Xiangyu Yue
cs.AI
Resumo
Avanços recentes têm demonstrado sucesso em eliciar fortes habilidades de raciocínio em modelos de linguagem multimodal de grande escala (MLLMs) por meio de aprendizado por reforço (RL) baseado em regras com recompensas de resultado. No entanto, esse paradigma geralmente carece de supervisão sobre o processo de pensamento que leva ao resultado final. Como consequência, o modelo pode aprender estratégias de raciocínio subótimas, o que pode prejudicar sua capacidade de generalização. Diante disso, propomos o SophiaVL-R1, como uma tentativa de adicionar sinais de recompensa para o processo de pensamento nesse paradigma. Para alcançar isso, primeiro treinamos um modelo de recompensa de pensamento que avalia a qualidade de todo o processo de raciocínio. Dado que a recompensa de pensamento pode ser pouco confiável para certas amostras devido ao "reward hacking", propomos o método Trust-GRPO, que atribui um peso de confiabilidade à recompensa de pensamento durante o treinamento. Esse peso é calculado com base na comparação da recompensa de pensamento de respostas que levam a respostas corretas versus incorretas, ajudando a mitigar o impacto de recompensas de pensamento potencialmente não confiáveis. Além disso, projetamos uma estratégia de treinamento com decaimento que gradualmente reduz a recompensa de pensamento ao longo do tempo, permitindo que o modelo dependa mais da recompensa de resultado baseada em regras, que é mais precisa, nas fases posteriores do treinamento. Experimentos mostram que nosso SophiaVL-R1 supera uma série de MLLMs de raciocínio em vários benchmarks (por exemplo, MathVisita, MMMU), demonstrando fortes capacidades de raciocínio e generalização. Notavelmente, nosso SophiaVL-R1-7B até supera o LLaVA-OneVision-72B na maioria dos benchmarks, apesar deste último ter 10 vezes mais parâmetros. Todo o código, modelos e conjuntos de dados estão disponíveis publicamente em https://github.com/kxfan2002/SophiaVL-R1.
English
Recent advances have shown success in eliciting strong reasoning abilities in
multimodal large language models (MLLMs) through rule-based reinforcement
learning (RL) with outcome rewards. However, this paradigm typically lacks
supervision over the thinking process leading to the final outcome.As a result,
the model may learn sub-optimal reasoning strategies, which can hinder its
generalization ability. In light of this, we propose SophiaVL-R1, as an attempt
to add reward signals for the thinking process in this paradigm. To achieve
this, we first train a thinking reward model that evaluates the quality of the
entire thinking process. Given that the thinking reward may be unreliable for
certain samples due to reward hacking, we propose the Trust-GRPO method, which
assigns a trustworthiness weight to the thinking reward during training. This
weight is computed based on the thinking reward comparison of responses leading
to correct answers versus incorrect answers, helping to mitigate the impact of
potentially unreliable thinking rewards. Moreover, we design an annealing
training strategy that gradually reduces the thinking reward over time,
allowing the model to rely more on the accurate rule-based outcome reward in
later training stages. Experiments show that our SophiaVL-R1 surpasses a series
of reasoning MLLMs on various benchmarks (e.g., MathVisita, MMMU),
demonstrating strong reasoning and generalization capabilities. Notably, our
SophiaVL-R1-7B even outperforms LLaVA-OneVision-72B on most benchmarks, despite
the latter having 10 times more parameters. All code, models, and datasets are
made publicly available at https://github.com/kxfan2002/SophiaVL-R1.