강화 학습을 통한 통합 멀티모달 사고 연쇄 보상 모델
Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning
May 6, 2025
저자: Yibin Wang, Zhimin Li, Yuhang Zang, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang
cs.AI
초록
최근 멀티모달 보상 모델(Reward Models, RMs)의 발전은 시각 모델을 인간의 선호도와 일치시키기 위한 보상 신호를 제공하는 데 있어 상당한 가능성을 보여주고 있습니다. 그러나 현재의 RMs는 일반적으로 직접적인 응답을 제공하거나 제한된 깊이의 얕은 추론 과정에 머무르는 경우가 많아, 종종 부정확한 보상 신호를 초래합니다. 우리는 명시적인 긴 사고의 연쇄(Chain of Thought, CoT)를 보상 추론 과정에 통합함으로써 그 신뢰성과 견고성을 크게 강화할 수 있다고 주장합니다. 더 나아가, RMs가 CoT 추론을 내재화하면 암묵적인 추론 능력을 통해 직접 응답의 정확성도 향상될 수 있다고 믿습니다. 이를 위해, 본 논문은 UnifiedReward-Think를 제안합니다. 이는 시각적 이해와 생성 보상 작업 모두를 위한 다차원적이고 단계별로 이루어진 긴 사고의 연쇄 추론이 가능한 최초의 통합 멀티모달 CoT 기반 보상 모델입니다. 구체적으로, 우리는 탐색 기반 강화 미세 조정 접근법을 채택하여 모델의 잠재적 복잡 추론 능력을 유도하고 촉진합니다: (1) 먼저 소량의 이미지 생성 선호 데이터를 사용하여 GPT-4o의 추론 과정을 정제한 후, 이를 모델의 콜드 스타트에 활용하여 CoT 추론의 형식과 구조를 학습시킵니다. (2) 이후, 모델의 사전 지식과 일반화 능력을 활용하여 대규모 통합 멀티모달 선호 데이터를 준비하고 다양한 시각 작업에 걸쳐 모델의 추론 과정을 유도합니다. 이 단계에서 올바른 추론 출력은 거부 샘플링을 위해 보존되어 모델을 개선하고 (3), 잘못된 예측 샘플은 최종적으로 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO) 기반 강화 미세 조정에 사용되어 모델이 다양한 추론 경로를 탐색하고 올바르고 견고한 해결책을 최적화할 수 있도록 합니다. 다양한 시각 보상 작업에 걸친 광범위한 실험을 통해 우리 모델의 우수성을 입증합니다.
English
Recent advances in multimodal Reward Models (RMs) have shown significant
promise in delivering reward signals to align vision models with human
preferences. However, current RMs are generally restricted to providing direct
responses or engaging in shallow reasoning processes with limited depth, often
leading to inaccurate reward signals. We posit that incorporating explicit long
chains of thought (CoT) into the reward reasoning process can significantly
strengthen their reliability and robustness. Furthermore, we believe that once
RMs internalize CoT reasoning, their direct response accuracy can also be
improved through implicit reasoning capabilities. To this end, this paper
proposes UnifiedReward-Think, the first unified multimodal CoT-based reward
model, capable of multi-dimensional, step-by-step long-chain reasoning for both
visual understanding and generation reward tasks. Specifically, we adopt an
exploration-driven reinforcement fine-tuning approach to elicit and incentivize
the model's latent complex reasoning ability: (1) We first use a small amount
of image generation preference data to distill the reasoning process of GPT-4o,
which is then used for the model's cold start to learn the format and structure
of CoT reasoning. (2) Subsequently, by leveraging the model's prior knowledge
and generalization capabilities, we prepare large-scale unified multimodal
preference data to elicit the model's reasoning process across various vision
tasks. During this phase, correct reasoning outputs are retained for rejection
sampling to refine the model (3) while incorrect predicted samples are finally
used for Group Relative Policy Optimization (GRPO) based reinforcement
fine-tuning, enabling the model to explore diverse reasoning paths and optimize
for correct and robust solutions. Extensive experiments across various vision
reward tasks demonstrate the superiority of our model.Summary
AI-Generated Summary