ChatPaper.aiChatPaper

통합 개인화 비전 생성 보상 모델

Unified Personalized Reward Model for Vision Generation

February 2, 2026
저자: Yibin Wang, Yuhang Zang, Feng Han, Jiazi Bu, Yujie Zhou, Cheng Jin, Jiaqi Wang
cs.AI

초록

최근 멀티모달 보상 모델(RM)의 발전은 시각 생성 분야의 발전을 크게 촉진시켰습니다. 기존 프레임워크는 일반적으로 Bradley-Terry 방식의 선호도 모델링을 채택하거나 생성형 VLM을 평가자로 활용한 후 강화 학습을 통해 시각 생성 모델을 최적화합니다. 그러나 현재의 RM은 본질적인 한계를 지니고 있습니다. 즉, 단일한 선호도 분포를 가정하거나 고정된 평가 기준에 의존하는 '일관된(one-size-fits-all)' 패러다임을 따르는 경우가 많습니다. 그 결과, 콘텐츠 특정적인 시각적 단서에 둔감해져 주관적이고 상황에 따라 달라지는 인간의 선호도와 체계적으로 어긋나는 문제가 발생합니다. 이를 해결하기 위해 인간 평가에서 영감을 받아, 보상 모델링과 유연하며 상황에 적응하는 추론 능력을 결합한 통합 개인화 시각 생성 보상 모델인 UnifiedReward-Flex를 제안합니다. 구체적으로, 주어진 프롬프트와 생성된 시각 콘텐츠를 바탕으로 의미론적 의도를 해석하고 시각적 증거에 기반한 후, 미리 정의된 차원과 자체 생성된 상위 수준 차원 아래에서 세분화된 기준을 구체화하여 계층적 평가를 동적으로 구성합니다. 우리의 학습 파이프라인은 두 단계 과정을 따릅니다: (1) 먼저 고급 비공개 VLM에서 구조화된 고품질 추론 흔적을 추출하여 SFT(지도 미세 조정)를 부트스트랩하여 모델에 유연하고 상황 적응형 추론 능력을 부여합니다. (2) 그런 다음 신중하게 선별된 선호도 쌍에 대해 직접 선호도 최적화(DPO)를 수행하여 추론의 정확성과 판별 정렬을 더욱 강화합니다. 효과성을 검증하기 위해 UnifiedReward-Flex를 이미지 및 비디오 합성을 위한 GRPO 프레임워크에 통합하였으며, 광범위한 결과를 통해 그 우수성을 입증합니다.
English
Recent advancements in multimodal reward models (RMs) have significantly propelled the development of visual generation. Existing frameworks typically adopt Bradley-Terry-style preference modeling or leverage generative VLMs as judges, and subsequently optimize visual generation models via reinforcement learning. However, current RMs suffer from inherent limitations: they often follow a one-size-fits-all paradigm that assumes a monolithic preference distribution or relies on fixed evaluation rubrics. As a result, they are insensitive to content-specific visual cues, leading to systematic misalignment with subjective and context-dependent human preferences. To this end, inspired by human assessment, we propose UnifiedReward-Flex, a unified personalized reward model for vision generation that couples reward modeling with flexible and context-adaptive reasoning. Specifically, given a prompt and the generated visual content, it first interprets the semantic intent and grounds on visual evidence, then dynamically constructs a hierarchical assessment by instantiating fine-grained criteria under both predefined and self-generated high-level dimensions. Our training pipeline follows a two-stage process: (1) we first distill structured, high-quality reasoning traces from advanced closed-source VLMs to bootstrap SFT, equipping the model with flexible and context-adaptive reasoning behaviors; (2) we then perform direct preference optimization (DPO) on carefully curated preference pairs to further strengthen reasoning fidelity and discriminative alignment. To validate the effectiveness, we integrate UnifiedReward-Flex into the GRPO framework for image and video synthesis, and extensive results demonstrate its superiority.
PDF161February 5, 2026