ChatPaper.aiChatPaper

Addestramento alla Coerenza del Rumore: Un Approccio Nativo per Generatori a Un Passo nell'Apprendimento di Controlli Aggiuntivi

Noise Consistency Training: A Native Approach for One-Step Generator in Learning Additional Controls

June 24, 2025
Autori: Yihong Luo, Shuchen Xue, Tianyang Hu, Jing Tang
cs.AI

Abstract

La ricerca di una generazione di contenuti di alta qualità, efficiente e controllabile rimane una sfida centrale nel campo dei contenuti generati dall'intelligenza artificiale (AIGC). Sebbene i generatori one-step, abilitati da tecniche di distillazione della diffusione, offrano un'eccellente qualità di generazione e un'efficienza computazionale, adattarli a nuove condizioni di controllo—come vincoli strutturali, linee guida semantiche o input esterni—rappresenta una sfida significativa. Gli approcci convenzionali spesso richiedono modifiche computazionalmente costose al modello di base e una successiva distillazione della diffusione. Questo articolo introduce il Noise Consistency Training (NCT), un approccio innovativo e leggero per integrare direttamente nuovi segnali di controllo in generatori one-step pre-addestrati, senza la necessità di accedere alle immagini di training originali o di riaddestrare il modello di diffusione di base. NCT opera introducendo un modulo adattatore e impiegando una funzione di perdita di consistenza del rumore nello spazio del rumore del generatore. Questa perdita allinea il comportamento di generazione del modello adattato attraverso rumori che sono condizionalmente dipendenti in misura variabile, guidandolo implicitamente a rispettare il nuovo controllo. Teoricamente, questo obiettivo di training può essere interpretato come la minimizzazione della distanza distributiva tra il generatore adattato e la distribuzione condizionale indotta dalle nuove condizioni. NCT è modulare, efficiente dal punto di vista dei dati e facilmente implementabile, basandosi solo sul generatore one-step pre-addestrato e su un modello di segnale di controllo. Esperimenti estesi dimostrano che NCT raggiunge una generazione controllabile all'avanguardia in un singolo passaggio in avanti, superando i metodi esistenti basati su multi-step e distillazione sia nella qualità della generazione che nell'efficienza computazionale. Il codice è disponibile all'indirizzo https://github.com/Luo-Yihong/NCT.
English
The pursuit of efficient and controllable high-quality content generation remains a central challenge in artificial intelligence-generated content (AIGC). While one-step generators, enabled by diffusion distillation techniques, offer excellent generation quality and computational efficiency, adapting them to new control conditions--such as structural constraints, semantic guidelines, or external inputs--poses a significant challenge. Conventional approaches often necessitate computationally expensive modifications to the base model and subsequent diffusion distillation. This paper introduces Noise Consistency Training (NCT), a novel and lightweight approach to directly integrate new control signals into pre-trained one-step generators without requiring access to original training images or retraining the base diffusion model. NCT operates by introducing an adapter module and employs a noise consistency loss in the noise space of the generator. This loss aligns the adapted model's generation behavior across noises that are conditionally dependent to varying degrees, implicitly guiding it to adhere to the new control. Theoretically, this training objective can be understood as minimizing the distributional distance between the adapted generator and the conditional distribution induced by the new conditions. NCT is modular, data-efficient, and easily deployable, relying only on the pre-trained one-step generator and a control signal model. Extensive experiments demonstrate that NCT achieves state-of-the-art controllable generation in a single forward pass, surpassing existing multi-step and distillation-based methods in both generation quality and computational efficiency. Code is available at https://github.com/Luo-Yihong/NCT
PDF41June 30, 2025