ChatPaper.aiChatPaper

拡散強化学習における方向性分離アライメントによる選好モード崩壊の抑制 (注:タイトル翻訳のため、技術論文の要約や本文ではないことをご了承ください。実際の論文内容に応じて訳出方法が変わることがあります)

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

December 30, 2025
著者: Chubin Chen, Sujie Hu, Jiashu Zhu, Meiqi Wu, Jintao Chen, Yanxun Li, Nisha Huang, Chengyu Fang, Jiahong Wu, Xiangxiang Chu, Xiu Li
cs.AI

要旨

近年の研究では、人間の嗜好に基づく強化学習(RLHF)を用いて、テキストから画像への拡散モデルを人間の好みに合わせる手法が大きく進展しています。しかし、既存の手法は自動評価指標で高いスコアを達成する一方で、「嗜好モード崩壊(Preference Mode Collapse: PMC)」と呼ばれる特定の報酬ハッキング現象を引き起こすことが多いです。PMCとは、モデルが狭い範囲の高スコア出力(例えば、単一的なスタイルや過度の露出が蔓延した画像)に収束し、生成多様性が著しく低下する現象を指します。本研究では、この現象を初めて定義・定量化し、PMCの程度を測定する新しいベンチマーク「DivGenBench」を提案します。我々は、この崩壊が報酬モデルに内在するバイアスに沿った過剰最適化によって引き起こされると仮定します。この分析に基づき、報酬信号を方向的に補正することでPMCを緩和する新しいフレームワーク「方向的デカップリングアライメント(D^2-Align)」を提案します。具体的には、モデルを固定した状態で報酬モデルの埋め込み空間内における方向的補正を学習し、最適化過程で報酬信号に適用します。これにより、モデルが特定のモードに崩壊するのを防ぎ、多様性を維持します。品質と多様性の両方に関する定性的分析と定量的指標を組み合わせた総合的な評価により、D^2-Alignが人間の嗜好との優れた整合性を達成することを明らかにしました。
English
Recent studies have demonstrated significant progress in aligning text-to-image diffusion models with human preference via Reinforcement Learning from Human Feedback. However, while existing methods achieve high scores on automated reward metrics, they often lead to Preference Mode Collapse (PMC)-a specific form of reward hacking where models converge on narrow, high-scoring outputs (e.g., images with monolithic styles or pervasive overexposure), severely degrading generative diversity. In this work, we introduce and quantify this phenomenon, proposing DivGenBench, a novel benchmark designed to measure the extent of PMC. We posit that this collapse is driven by over-optimization along the reward model's inherent biases. Building on this analysis, we propose Directional Decoupling Alignment (D^2-Align), a novel framework that mitigates PMC by directionally correcting the reward signal. Specifically, our method first learns a directional correction within the reward model's embedding space while keeping the model frozen. This correction is then applied to the reward signal during the optimization process, preventing the model from collapsing into specific modes and thereby maintaining diversity. Our comprehensive evaluation, combining qualitative analysis with quantitative metrics for both quality and diversity, reveals that D^2-Align achieves superior alignment with human preference.
PDF142February 8, 2026