ChatPaper.aiChatPaper

Treinamento de Consistência de Ruído: Uma Abordagem Nativa para Geradores de Passo Único no Aprendizado de Controles Adicionais

Noise Consistency Training: A Native Approach for One-Step Generator in Learning Additional Controls

June 24, 2025
Autores: Yihong Luo, Shuchen Xue, Tianyang Hu, Jing Tang
cs.AI

Resumo

A busca por geração de conteúdo de alta qualidade, eficiente e controlável continua sendo um desafio central na geração de conteúdo por inteligência artificial (AIGC). Embora geradores de uma única etapa, habilitados por técnicas de destilação de difusão, ofereçam excelente qualidade de geração e eficiência computacional, adaptá-los a novas condições de controle—como restrições estruturais, diretrizes semânticas ou entradas externas—representa um desafio significativo. Abordagens convencionais frequentemente exigem modificações computacionalmente caras ao modelo base e subsequente destilação de difusão. Este artigo introduz o Treinamento de Consistência de Ruído (NCT), uma abordagem nova e leve para integrar diretamente novos sinais de controle em geradores de uma única etapa pré-treinados, sem a necessidade de acesso às imagens de treinamento originais ou retreinamento do modelo de difusão base. O NCT opera introduzindo um módulo adaptador e empregando uma perda de consistência de ruído no espaço de ruído do gerador. Essa perda alinha o comportamento de geração do modelo adaptado em ruídos que são condicionalmente dependentes em diferentes graus, implicitamente guiando-o a aderir ao novo controle. Teoricamente, esse objetivo de treinamento pode ser entendido como a minimização da distância distribucional entre o gerador adaptado e a distribuição condicional induzida pelas novas condições. O NCT é modular, eficiente em termos de dados e facilmente implantável, dependendo apenas do gerador de uma única etapa pré-treinado e de um modelo de sinal de controle. Experimentos extensivos demonstram que o NCT alcança geração controlável de última geração em uma única passagem direta, superando métodos existentes baseados em múltiplas etapas e destilação tanto em qualidade de geração quanto em eficiência computacional. O código está disponível em https://github.com/Luo-Yihong/NCT.
English
The pursuit of efficient and controllable high-quality content generation remains a central challenge in artificial intelligence-generated content (AIGC). While one-step generators, enabled by diffusion distillation techniques, offer excellent generation quality and computational efficiency, adapting them to new control conditions--such as structural constraints, semantic guidelines, or external inputs--poses a significant challenge. Conventional approaches often necessitate computationally expensive modifications to the base model and subsequent diffusion distillation. This paper introduces Noise Consistency Training (NCT), a novel and lightweight approach to directly integrate new control signals into pre-trained one-step generators without requiring access to original training images or retraining the base diffusion model. NCT operates by introducing an adapter module and employs a noise consistency loss in the noise space of the generator. This loss aligns the adapted model's generation behavior across noises that are conditionally dependent to varying degrees, implicitly guiding it to adhere to the new control. Theoretically, this training objective can be understood as minimizing the distributional distance between the adapted generator and the conditional distribution induced by the new conditions. NCT is modular, data-efficient, and easily deployable, relying only on the pre-trained one-step generator and a control signal model. Extensive experiments demonstrate that NCT achieves state-of-the-art controllable generation in a single forward pass, surpassing existing multi-step and distillation-based methods in both generation quality and computational efficiency. Code is available at https://github.com/Luo-Yihong/NCT
PDF41June 30, 2025