ChatPaper.aiChatPaper

Entraînement par Cohérence du Bruit : Une Approche Native pour un Générateur en Une Étape dans l'Apprentissage de Contrôles Supplémentaires

Noise Consistency Training: A Native Approach for One-Step Generator in Learning Additional Controls

June 24, 2025
Auteurs: Yihong Luo, Shuchen Xue, Tianyang Hu, Jing Tang
cs.AI

Résumé

La quête d'une génération de contenu de haute qualité, efficace et contrôlable demeure un défi central dans le domaine du contenu généré par l'intelligence artificielle (AIGC). Bien que les générateurs en une seule étape, rendus possibles par les techniques de distillation de diffusion, offrent une excellente qualité de génération et une efficacité computationnelle, leur adaptation à de nouvelles conditions de contrôle—telles que des contraintes structurelles, des directives sémantiques ou des entrées externes—représente un défi majeur. Les approches conventionnelles nécessitent souvent des modifications coûteuses en termes de calculs au modèle de base, suivies d'une distillation de diffusion. Cet article présente le Noise Consistency Training (NCT), une approche novatrice et légère pour intégrer directement de nouveaux signaux de contrôle dans des générateurs pré-entraînés en une seule étape, sans nécessiter l'accès aux images d'entraînement originales ni le réentraînement du modèle de diffusion de base. NCT fonctionne en introduisant un module d'adaptation et en utilisant une perte de cohérence du bruit dans l'espace de bruit du générateur. Cette perte aligne le comportement de génération du modèle adapté sur des bruits qui sont conditionnellement dépendants à des degrés variés, guidant implicitement le modèle à respecter le nouveau contrôle. Théoriquement, cet objectif d'entraînement peut être compris comme la minimisation de la distance distributionnelle entre le générateur adapté et la distribution conditionnelle induite par les nouvelles conditions. NCT est modulaire, économe en données et facilement déployable, reposant uniquement sur le générateur pré-entraîné en une seule étape et un modèle de signal de contrôle. Des expériences approfondies démontrent que NCT atteint un état de l'art en génération contrôlable en une seule passe avant, surpassant les méthodes existantes basées sur plusieurs étapes et la distillation, tant en qualité de génération qu'en efficacité computationnelle. Le code est disponible à l'adresse suivante : https://github.com/Luo-Yihong/NCT.
English
The pursuit of efficient and controllable high-quality content generation remains a central challenge in artificial intelligence-generated content (AIGC). While one-step generators, enabled by diffusion distillation techniques, offer excellent generation quality and computational efficiency, adapting them to new control conditions--such as structural constraints, semantic guidelines, or external inputs--poses a significant challenge. Conventional approaches often necessitate computationally expensive modifications to the base model and subsequent diffusion distillation. This paper introduces Noise Consistency Training (NCT), a novel and lightweight approach to directly integrate new control signals into pre-trained one-step generators without requiring access to original training images or retraining the base diffusion model. NCT operates by introducing an adapter module and employs a noise consistency loss in the noise space of the generator. This loss aligns the adapted model's generation behavior across noises that are conditionally dependent to varying degrees, implicitly guiding it to adhere to the new control. Theoretically, this training objective can be understood as minimizing the distributional distance between the adapted generator and the conditional distribution induced by the new conditions. NCT is modular, data-efficient, and easily deployable, relying only on the pre-trained one-step generator and a control signal model. Extensive experiments demonstrate that NCT achieves state-of-the-art controllable generation in a single forward pass, surpassing existing multi-step and distillation-based methods in both generation quality and computational efficiency. Code is available at https://github.com/Luo-Yihong/NCT
PDF41June 30, 2025