視覚生成のための統合型個人化報酬モデル
Unified Personalized Reward Model for Vision Generation
February 2, 2026
著者: Yibin Wang, Yuhang Zang, Feng Han, Jiazi Bu, Yujie Zhou, Cheng Jin, Jiaqi Wang
cs.AI
要旨
近年、マルチモーダル報酬モデル(RM)の進展により、視覚的生成技術は著しく発展してきた。既存のフレームワークは、Bradley-Terry スタイルの選好モデリングを採用するか、生成的 VLM を評価器として活用し、強化学習を通じて視覚生成モデルを最適化するのが一般的である。しかし、現在の RM には固有の限界がある。それらは画一的な選好分布を仮定する、あるいは固定された評価基準に依存する「万能型」パラダイムに陥りがちである。その結果、コンテンツ固有の視覚的手がかりに鈍感となり、主観的かつ文脈依存的な人間の選好との体系的な不一致を引き起こす。この問題に対処するため、我々は人間の評価プロセスにヒントを得て、報酬モデリングと柔軟で文脈適応的な推論を結合した、視覚生成のための統一的な個人化報酬モデル UnifiedReward-Flex を提案する。具体的には、プロンプトと生成された視覚コンテンツが与えられた際、まず意味的意図を解釈し視覚的証拠に基づいてグラウンディングを行った後、事前定義された高次元と自己生成された高次元の下で、細粒度の評価基準をインスタンス化することにより、階層的な評価を動的に構築する。学習パイプラインは2段階からなる:(1) まず、高度なクローズドソース VLM から構造化された高品質な推論トレースを知識蒸留し、SFT をブートストラップすることで、モデルに柔軟で文脈適応的な推論挙動を付与する。(2) 続いて、注意深く選別された選好ペアに対して直接選好最適化(DPO)を実施し、推論の忠実性と識別的なアライメントをさらに強化する。有効性を検証するため、UnifiedReward-Flex を画像および動画合成のための GRPO フレームワークに統合し、広範な実験結果を通じてその優位性を実証する。
English
Recent advancements in multimodal reward models (RMs) have significantly propelled the development of visual generation. Existing frameworks typically adopt Bradley-Terry-style preference modeling or leverage generative VLMs as judges, and subsequently optimize visual generation models via reinforcement learning. However, current RMs suffer from inherent limitations: they often follow a one-size-fits-all paradigm that assumes a monolithic preference distribution or relies on fixed evaluation rubrics. As a result, they are insensitive to content-specific visual cues, leading to systematic misalignment with subjective and context-dependent human preferences. To this end, inspired by human assessment, we propose UnifiedReward-Flex, a unified personalized reward model for vision generation that couples reward modeling with flexible and context-adaptive reasoning. Specifically, given a prompt and the generated visual content, it first interprets the semantic intent and grounds on visual evidence, then dynamically constructs a hierarchical assessment by instantiating fine-grained criteria under both predefined and self-generated high-level dimensions. Our training pipeline follows a two-stage process: (1) we first distill structured, high-quality reasoning traces from advanced closed-source VLMs to bootstrap SFT, equipping the model with flexible and context-adaptive reasoning behaviors; (2) we then perform direct preference optimization (DPO) on carefully curated preference pairs to further strengthen reasoning fidelity and discriminative alignment. To validate the effectiveness, we integrate UnifiedReward-Flex into the GRPO framework for image and video synthesis, and extensive results demonstrate its superiority.