SophiaVL-R1: Усиление способности мультимодальных языковых моделей к рассуждению с помощью награды за мышление
SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward
May 22, 2025
Авторы: Kaixuan Fan, Kaituo Feng, Haoming Lyu, Dongzhan Zhou, Xiangyu Yue
cs.AI
Аннотация
Недавние достижения продемонстрировали успех в развитии сильных способностей к рассуждению у мультимодальных больших языковых моделей (MLLMs) с использованием обучения с подкреплением (RL) на основе правил с вознаграждением за результат. Однако в этом подходе обычно отсутствует контроль над мыслительным процессом, ведущим к конечному результату. В результате модель может усвоить субоптимальные стратегии рассуждения, что может ограничить её способность к обобщению. В связи с этим мы предлагаем SophiaVL-R1 как попытку добавить сигналы вознаграждения за мыслительный процесс в данный подход. Для этого мы сначала обучаем модель вознаграждения за мышление, которая оценивает качество всего мыслительного процесса. Учитывая, что вознаграждение за мышление может быть ненадежным для некоторых примеров из-за "взлома вознаграждения", мы предлагаем метод Trust-GRPO, который присваивает весовой коэффициент доверия вознаграждению за мышление в процессе обучения. Этот вес вычисляется на основе сравнения вознаграждений за мышление для ответов, приводящих к правильным и неправильным результатам, что помогает снизить влияние потенциально ненадежных вознаграждений за мышление. Кроме того, мы разрабатываем стратегию обучения с затуханием, которая постепенно уменьшает вознаграждение за мышление со временем, позволяя модели больше полагаться на точное вознаграждение за результат на основе правил на поздних этапах обучения. Эксперименты показывают, что наша модель SophiaVL-R1 превосходит ряд MLLMs для рассуждений на различных тестах (например, MathVisita, MMMU), демонстрируя сильные способности к рассуждению и обобщению. Примечательно, что наша модель SophiaVL-R1-7B даже превосходит LLaVA-OneVision-72B на большинстве тестов, несмотря на то, что последняя имеет в 10 раз больше параметров. Весь код, модели и наборы данных доступны публично по адресу https://github.com/kxfan2002/SophiaVL-R1.
English
Recent advances have shown success in eliciting strong reasoning abilities in
multimodal large language models (MLLMs) through rule-based reinforcement
learning (RL) with outcome rewards. However, this paradigm typically lacks
supervision over the thinking process leading to the final outcome.As a result,
the model may learn sub-optimal reasoning strategies, which can hinder its
generalization ability. In light of this, we propose SophiaVL-R1, as an attempt
to add reward signals for the thinking process in this paradigm. To achieve
this, we first train a thinking reward model that evaluates the quality of the
entire thinking process. Given that the thinking reward may be unreliable for
certain samples due to reward hacking, we propose the Trust-GRPO method, which
assigns a trustworthiness weight to the thinking reward during training. This
weight is computed based on the thinking reward comparison of responses leading
to correct answers versus incorrect answers, helping to mitigate the impact of
potentially unreliable thinking rewards. Moreover, we design an annealing
training strategy that gradually reduces the thinking reward over time,
allowing the model to rely more on the accurate rule-based outcome reward in
later training stages. Experiments show that our SophiaVL-R1 surpasses a series
of reasoning MLLMs on various benchmarks (e.g., MathVisita, MMMU),
demonstrating strong reasoning and generalization capabilities. Notably, our
SophiaVL-R1-7B even outperforms LLaVA-OneVision-72B on most benchmarks, despite
the latter having 10 times more parameters. All code, models, and datasets are
made publicly available at https://github.com/kxfan2002/SophiaVL-R1.Summary
AI-Generated Summary