SophiaVL-R1: 사고 보상을 통한 MLLM 추론 강화
SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward
May 22, 2025
저자: Kaixuan Fan, Kaituo Feng, Haoming Lyu, Dongzhan Zhou, Xiangyu Yue
cs.AI
초록
최근 연구들은 결과 보상을 기반으로 한 규칙 기반 강화 학습(RL)을 통해 멀티모달 대형 언어 모델(MLLMs)에서 강력한 추론 능력을 이끌어내는 데 성공을 거두었습니다. 그러나 이러한 패러다임은 일반적으로 최종 결과에 이르는 사고 과정에 대한 감독이 부족합니다. 그 결과, 모델이 최적이 아닌 추론 전략을 학습할 수 있으며, 이는 모델의 일반화 능력을 저해할 수 있습니다. 이를 고려하여, 우리는 SophiaVL-R1을 제안하며, 이 패러다임에 사고 과정에 대한 보상 신호를 추가하려는 시도입니다. 이를 위해, 우리는 먼저 전체 사고 과정의 품질을 평가하는 사고 보상 모델을 학습합니다. 사고 보상이 특정 샘플에 대해 보상 해킹으로 인해 신뢰할 수 없을 수 있다는 점을 고려하여, 우리는 Trust-GRPO 방법을 제안합니다. 이 방법은 학습 중에 사고 보상에 신뢰도 가중치를 부여하며, 이 가중치는 정답과 오답으로 이어지는 응답 간의 사고 보상 비교를 기반으로 계산되어 잠재적으로 신뢰할 수 없는 사고 보상의 영향을 완화합니다. 또한, 우리는 시간이 지남에 따라 사고 보상을 점진적으로 감소시키는 어닐링 학습 전략을 설계하여, 모델이 후기 학습 단계에서 정확한 규칙 기반 결과 보상에 더 의존할 수 있도록 합니다. 실험 결과, 우리의 SophiaVL-R1은 다양한 벤치마크(예: MathVisita, MMMU)에서 일련의 추론 MLLMs를 능가하며, 강력한 추론 및 일반화 능력을 보여줍니다. 특히, 우리의 SophiaVL-R1-7B는 매개변수가 10배 더 많은 LLaVA-OneVision-72B를 대부분의 벤치마크에서 능가합니다. 모든 코드, 모델 및 데이터셋은 https://github.com/kxfan2002/SophiaVL-R1에서 공개되었습니다.
English
Recent advances have shown success in eliciting strong reasoning abilities in
multimodal large language models (MLLMs) through rule-based reinforcement
learning (RL) with outcome rewards. However, this paradigm typically lacks
supervision over the thinking process leading to the final outcome.As a result,
the model may learn sub-optimal reasoning strategies, which can hinder its
generalization ability. In light of this, we propose SophiaVL-R1, as an attempt
to add reward signals for the thinking process in this paradigm. To achieve
this, we first train a thinking reward model that evaluates the quality of the
entire thinking process. Given that the thinking reward may be unreliable for
certain samples due to reward hacking, we propose the Trust-GRPO method, which
assigns a trustworthiness weight to the thinking reward during training. This
weight is computed based on the thinking reward comparison of responses leading
to correct answers versus incorrect answers, helping to mitigate the impact of
potentially unreliable thinking rewards. Moreover, we design an annealing
training strategy that gradually reduces the thinking reward over time,
allowing the model to rely more on the accurate rule-based outcome reward in
later training stages. Experiments show that our SophiaVL-R1 surpasses a series
of reasoning MLLMs on various benchmarks (e.g., MathVisita, MMMU),
demonstrating strong reasoning and generalization capabilities. Notably, our
SophiaVL-R1-7B even outperforms LLaVA-OneVision-72B on most benchmarks, despite
the latter having 10 times more parameters. All code, models, and datasets are
made publicly available at https://github.com/kxfan2002/SophiaVL-R1.Summary
AI-Generated Summary