ChatPaper.aiChatPaper

확산 강화 학습에서 방향적 디커플링 정렬을 통한 선호 모드 붕괴 억제

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

December 30, 2025
저자: Chubin Chen, Sujie Hu, Jiashu Zhu, Meiqi Wu, Jintao Chen, Yanxun Li, Nisha Huang, Chengyu Fang, Jiahong Wu, Xiangxiang Chu, Xiu Li
cs.AI

초록

최근 연구에서는 인간 피드백 강화 학습을 통해 텍스트-이미지 확산 모델을 인간의 선호에 맞추는 데 상당한 진전이 이루어졌습니다. 그러나 기존 방법들은 자동화된 보상 메트릭에서 높은 점수를 달성하는 반면, 선호 모드 붕괴(PMC)라는 특정 형태의 보상 해킹을 초래하는 경우가 많습니다. PMC는 모델이 좁고 높은 점수를 받는 출력(예: 단일적인 스타일의 이미지나 만연한 과다 노출)에 수렴하여 생성 다양성을 심각하게 저하시키는 현상입니다. 본 연구에서는 이러한 현상을 소개하고 정량화하며, PMC 정도를 측정하기 위해 설계된 새로운 벤치마크인 DivGenBench을 제안합니다. 우리는 이러한 붕괴가 보상 모델의 내재적 편향을 따라 과도하게 최적화되면서 발생한다고 가정합니다. 이러한 분석을 바탕으로, 우리는 방향성 보정을 통해 보상 신호를 수정하여 PMC를 완화하는 새로운 프레임워크인 방향성 분리 정렬(D²-Align)을 제안합니다. 구체적으로, 우리의 방법은 먼저 모델을 고정한 상태에서 보상 모델의 임베딩 공간 내에서 방향성 보정을 학습합니다. 이 보정은 최적화 과정 중에 보상 신호에 적용되어 모델이 특정 모드로 붕괴되는 것을 방지함으로써 다양성을 유지합니다. 질적 분석과 정량적 메트릭(품질 및 다양성)을 결합한 포괄적인 평가를 통해 D²-Align이 인간의 선호와 더 우수한 정렬을 달성함을 확인하였습니다.
English
Recent studies have demonstrated significant progress in aligning text-to-image diffusion models with human preference via Reinforcement Learning from Human Feedback. However, while existing methods achieve high scores on automated reward metrics, they often lead to Preference Mode Collapse (PMC)-a specific form of reward hacking where models converge on narrow, high-scoring outputs (e.g., images with monolithic styles or pervasive overexposure), severely degrading generative diversity. In this work, we introduce and quantify this phenomenon, proposing DivGenBench, a novel benchmark designed to measure the extent of PMC. We posit that this collapse is driven by over-optimization along the reward model's inherent biases. Building on this analysis, we propose Directional Decoupling Alignment (D^2-Align), a novel framework that mitigates PMC by directionally correcting the reward signal. Specifically, our method first learns a directional correction within the reward model's embedding space while keeping the model frozen. This correction is then applied to the reward signal during the optimization process, preventing the model from collapsing into specific modes and thereby maintaining diversity. Our comprehensive evaluation, combining qualitative analysis with quantitative metrics for both quality and diversity, reveals that D^2-Align achieves superior alignment with human preference.
PDF142February 8, 2026