ChatPaper.aiChatPaper

Zähmung des Präferenzmodus-Kollapses durch gerichtete Entkopplungsabstimmung im Diffusion Reinforcement Learning

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

December 30, 2025
papers.authors: Chubin Chen, Sujie Hu, Jiashu Zhu, Meiqi Wu, Jintao Chen, Yanxun Li, Nisha Huang, Chengyu Fang, Jiahong Wu, Xiangxiang Chu, Xiu Li
cs.AI

papers.abstract

Aktuelle Studien haben bedeutende Fortschritte bei der Abstimmung von Text-zu-Bild-Diffusionsmodellen an menschliche Präferenzen mittels Reinforcement Learning from Human Feedback (RLHF) demonstriert. Während bestehende Methoden jedoch hohe Werte bei automatisierten Belohnungsmetriken erreichen, führen sie häufig zu einem Präferenz-Mode-Kollaps (PMC) – einer spezifischen Form des Reward Hackings, bei der Modelle auf enge, hoch bewertete Ausgaben konvergieren (z. B. Bilder mit einheitlichen Stilen oder durchgängiger Überbelichtung), was die generative Vielfalt erheblich beeinträchtigt. In dieser Arbeit führen wir dieses Phänomen ein und quantifizieren es, indem wir DivGenBench vorschlagen, einen neuartigen Benchmark zur Messung des Ausmaßes von PMC. Wir postulieren, dass dieser Kollaps durch eine Überoptimierung entlang der inhärenten Verzerrungen des Belohnungsmodells angetrieben wird. Aufbauend auf dieser Analyse schlagen wir Directional Decoupling Alignment (D²-Align) vor, einen neuartigen Rahmen, der PMC durch eine richtungsbezogene Korrektur des Belohnungssignals abmildert. Konkret lernt unsere Methode zunächst eine richtungsbezogene Korrektur im Einbettungsraum des Belohnungsmodells, während das Modell selbst eingefroren bleibt. Diese Korrektur wird dann während des Optimierungsprozesses auf das Belohnungssignal angewendet, um zu verhindern, dass das Modell in bestimmte Modi kollabiert und so die Vielfalt bewahrt. Unsere umfassende Evaluation, die qualitative Analysen mit quantitativen Metriken für Qualität und Vielfalt kombiniert, zeigt, dass D²-Align eine überlegene Abstimmung an menschliche Präferenzen erreicht.
English
Recent studies have demonstrated significant progress in aligning text-to-image diffusion models with human preference via Reinforcement Learning from Human Feedback. However, while existing methods achieve high scores on automated reward metrics, they often lead to Preference Mode Collapse (PMC)-a specific form of reward hacking where models converge on narrow, high-scoring outputs (e.g., images with monolithic styles or pervasive overexposure), severely degrading generative diversity. In this work, we introduce and quantify this phenomenon, proposing DivGenBench, a novel benchmark designed to measure the extent of PMC. We posit that this collapse is driven by over-optimization along the reward model's inherent biases. Building on this analysis, we propose Directional Decoupling Alignment (D^2-Align), a novel framework that mitigates PMC by directionally correcting the reward signal. Specifically, our method first learns a directional correction within the reward model's embedding space while keeping the model frozen. This correction is then applied to the reward signal during the optimization process, preventing the model from collapsing into specific modes and thereby maintaining diversity. Our comprehensive evaluation, combining qualitative analysis with quantitative metrics for both quality and diversity, reveals that D^2-Align achieves superior alignment with human preference.
PDF142February 8, 2026