Унифицированная мультимодальная модель вознаграждения с цепочкой рассуждений через тонкую настройку с подкреплением
Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning
May 6, 2025
Авторы: Yibin Wang, Zhimin Li, Yuhang Zang, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang
cs.AI
Аннотация
Последние достижения в области мультимодальных моделей вознаграждения (Reward Models, RMs) показали значительный потенциал в предоставлении сигналов вознаграждения для согласования визуальных моделей с человеческими предпочтениями. Однако современные RMs, как правило, ограничены предоставлением прямых ответов или участием в поверхностных процессах рассуждений с ограниченной глубиной, что часто приводит к неточным сигналам вознаграждения. Мы предполагаем, что включение явных длинных цепочек рассуждений (Chain of Thought, CoT) в процесс оценки вознаграждения может значительно повысить их надежность и устойчивость. Более того, мы считаем, что как только RMs усвоят CoT-рассуждения, точность их прямых ответов также может быть улучшена за счет неявных способностей к рассуждению. В связи с этим данная работа предлагает UnifiedReward-Think — первую унифицированную мультимодальную модель вознаграждения на основе CoT, способную к многомерным, пошаговым длинным цепочкам рассуждений как для задач визуального понимания, так и для задач генерации вознаграждения. В частности, мы применяем подход тонкой настройки с подкреплением, основанный на исследовании, чтобы выявить и стимулировать скрытую способность модели к сложным рассуждениям: (1) Сначала мы используем небольшое количество данных о предпочтениях генерации изображений для дистилляции процесса рассуждений GPT-4o, который затем используется для "холодного старта" модели, чтобы она изучила формат и структуру CoT-рассуждений. (2) Затем, используя априорные знания и обобщающие способности модели, мы подготавливаем крупномасштабные унифицированные мультимодальные данные о предпочтениях, чтобы выявить процесс рассуждений модели в различных визуальных задачах. На этом этапе корректные результаты рассуждений сохраняются для отбора с отклонением (rejection sampling) с целью улучшения модели, (3) в то время как некорректные предсказанные образцы в конечном итоге используются для тонкой настройки с подкреплением на основе Group Relative Policy Optimization (GRPO), что позволяет модели исследовать разнообразные пути рассуждений и оптимизировать их для получения корректных и устойчивых решений. Многочисленные эксперименты на различных задачах визуального вознаграждения демонстрируют превосходство нашей модели.
English
Recent advances in multimodal Reward Models (RMs) have shown significant
promise in delivering reward signals to align vision models with human
preferences. However, current RMs are generally restricted to providing direct
responses or engaging in shallow reasoning processes with limited depth, often
leading to inaccurate reward signals. We posit that incorporating explicit long
chains of thought (CoT) into the reward reasoning process can significantly
strengthen their reliability and robustness. Furthermore, we believe that once
RMs internalize CoT reasoning, their direct response accuracy can also be
improved through implicit reasoning capabilities. To this end, this paper
proposes UnifiedReward-Think, the first unified multimodal CoT-based reward
model, capable of multi-dimensional, step-by-step long-chain reasoning for both
visual understanding and generation reward tasks. Specifically, we adopt an
exploration-driven reinforcement fine-tuning approach to elicit and incentivize
the model's latent complex reasoning ability: (1) We first use a small amount
of image generation preference data to distill the reasoning process of GPT-4o,
which is then used for the model's cold start to learn the format and structure
of CoT reasoning. (2) Subsequently, by leveraging the model's prior knowledge
and generalization capabilities, we prepare large-scale unified multimodal
preference data to elicit the model's reasoning process across various vision
tasks. During this phase, correct reasoning outputs are retained for rejection
sampling to refine the model (3) while incorrect predicted samples are finally
used for Group Relative Policy Optimization (GRPO) based reinforcement
fine-tuning, enabling the model to explore diverse reasoning paths and optimize
for correct and robust solutions. Extensive experiments across various vision
reward tasks demonstrate the superiority of our model.