Entrenamiento de Consistencia de Ruido: Un Enfoque Nativo para Generadores de Un Paso en el Aprendizaje de Controles Adicionales
Noise Consistency Training: A Native Approach for One-Step Generator in Learning Additional Controls
June 24, 2025
Autores: Yihong Luo, Shuchen Xue, Tianyang Hu, Jing Tang
cs.AI
Resumen
La búsqueda de la generación de contenido de alta calidad, eficiente y controlable sigue siendo un desafío central en la generación de contenido mediante inteligencia artificial (AIGC). Aunque los generadores de un solo paso, habilitados por técnicas de destilación de difusión, ofrecen una excelente calidad de generación y eficiencia computacional, adaptarlos a nuevas condiciones de control—como restricciones estructurales, pautas semánticas o entradas externas—plantea un desafío significativo. Los enfoques convencionales a menudo requieren modificaciones computacionalmente costosas al modelo base y una posterior destilación de difusión. Este artículo presenta Noise Consistency Training (NCT), un enfoque novedoso y ligero para integrar directamente nuevas señales de control en generadores de un solo paso preentrenados, sin necesidad de acceder a las imágenes originales de entrenamiento o reentrenar el modelo de difusión base. NCT opera introduciendo un módulo adaptador y emplea una pérdida de consistencia de ruido en el espacio de ruido del generador. Esta pérdida alinea el comportamiento de generación del modelo adaptado en ruidos que son condicionalmente dependientes en diversos grados, guiándolo implícitamente a adherirse al nuevo control. Teóricamente, este objetivo de entrenamiento puede entenderse como la minimización de la distancia distribucional entre el generador adaptado y la distribución condicional inducida por las nuevas condiciones. NCT es modular, eficiente en datos y fácilmente implementable, dependiendo únicamente del generador de un solo paso preentrenado y un modelo de señal de control. Experimentos extensos demuestran que NCT logra una generación controlable de vanguardia en un solo paso hacia adelante, superando a los métodos existentes basados en múltiples pasos y destilación tanto en calidad de generación como en eficiencia computacional. El código está disponible en https://github.com/Luo-Yihong/NCT.
English
The pursuit of efficient and controllable high-quality content generation
remains a central challenge in artificial intelligence-generated content
(AIGC). While one-step generators, enabled by diffusion distillation
techniques, offer excellent generation quality and computational efficiency,
adapting them to new control conditions--such as structural constraints,
semantic guidelines, or external inputs--poses a significant challenge.
Conventional approaches often necessitate computationally expensive
modifications to the base model and subsequent diffusion distillation. This
paper introduces Noise Consistency Training (NCT), a novel and lightweight
approach to directly integrate new control signals into pre-trained one-step
generators without requiring access to original training images or retraining
the base diffusion model. NCT operates by introducing an adapter module and
employs a noise consistency loss in the noise space of the generator. This loss
aligns the adapted model's generation behavior across noises that are
conditionally dependent to varying degrees, implicitly guiding it to adhere to
the new control. Theoretically, this training objective can be understood as
minimizing the distributional distance between the adapted generator and the
conditional distribution induced by the new conditions. NCT is modular,
data-efficient, and easily deployable, relying only on the pre-trained one-step
generator and a control signal model. Extensive experiments demonstrate that
NCT achieves state-of-the-art controllable generation in a single forward pass,
surpassing existing multi-step and distillation-based methods in both
generation quality and computational efficiency. Code is available at
https://github.com/Luo-Yihong/NCT