ChatPaper.aiChatPaper

Maîtriser l'effondrement modal des préférences par alignement découplé directionnel dans l'apprentissage par renforcement par diffusion

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

December 30, 2025
papers.authors: Chubin Chen, Sujie Hu, Jiashu Zhu, Meiqi Wu, Jintao Chen, Yanxun Li, Nisha Huang, Chengyu Fang, Jiahong Wu, Xiangxiang Chu, Xiu Li
cs.AI

papers.abstract

Des études récentes ont démontré des progrès significatifs dans l'alignement des modèles de diffusion texte-image avec les préférences humaines via l'Apprentissage par Renforcement à partir des Retours Humains. Cependant, bien que les méthodes existantes obtiennent des scores élevés sur les métriques de récompense automatisées, elles conduisent souvent à un Effondrement des Modes de Préférence (PMC) – une forme spécifique de détournement de récompense où les modèles convergent vers des sorties étroites et hautement notées (par exemple, des images aux styles monolithiques ou présentant une surexposition pervasive), dégradant gravement la diversité générative. Dans ce travail, nous introduisons et quantifions ce phénomène, en proposant DivGenBench, un nouveau benchmark conçu pour mesurer l'étendue du PMC. Nous postulons que cet effondrement est provoqué par une sur-optimisation suivant les biais inhérents au modèle de récompense. Sur la base de cette analyse, nous proposons l'Alignement par Découplage Directionnel (D^2-Align), un nouveau cadre qui atténue le PMC en corrigeant directionnellement le signal de récompense. Concrètement, notre méthode apprend d'abord une correction directionnelle dans l'espace de représentation du modèle de récompense tout en le maintenant figé. Cette correction est ensuite appliquée au signal de récompense durant le processus d'optimisation, empêchant le modèle de s'effondrer dans des modes spécifiques et préservant ainsi la diversité. Notre évaluation complète, combinant une analyse qualitative avec des métriques quantitatives de qualité et de diversité, révèle que D^2-Align atteint un alignement supérieur avec les préférences humaines.
English
Recent studies have demonstrated significant progress in aligning text-to-image diffusion models with human preference via Reinforcement Learning from Human Feedback. However, while existing methods achieve high scores on automated reward metrics, they often lead to Preference Mode Collapse (PMC)-a specific form of reward hacking where models converge on narrow, high-scoring outputs (e.g., images with monolithic styles or pervasive overexposure), severely degrading generative diversity. In this work, we introduce and quantify this phenomenon, proposing DivGenBench, a novel benchmark designed to measure the extent of PMC. We posit that this collapse is driven by over-optimization along the reward model's inherent biases. Building on this analysis, we propose Directional Decoupling Alignment (D^2-Align), a novel framework that mitigates PMC by directionally correcting the reward signal. Specifically, our method first learns a directional correction within the reward model's embedding space while keeping the model frozen. This correction is then applied to the reward signal during the optimization process, preventing the model from collapsing into specific modes and thereby maintaining diversity. Our comprehensive evaluation, combining qualitative analysis with quantitative metrics for both quality and diversity, reveals that D^2-Align achieves superior alignment with human preference.
PDF142February 8, 2026