Noise Consistentie Training: Een Inheemse Benadering voor Eenstaps Generatoren bij het Leren van Extra Controles
Noise Consistency Training: A Native Approach for One-Step Generator in Learning Additional Controls
June 24, 2025
Auteurs: Yihong Luo, Shuchen Xue, Tianyang Hu, Jing Tang
cs.AI
Samenvatting
De zoektocht naar efficiënte en controleerbare generatie van hoogwaardige inhoud blijft een centrale uitdaging in kunstmatige intelligentie-gegenereerde inhoud (AIGC). Hoewel éénstapsgeneratoren, mogelijk gemaakt door diffusiedistillatietechnieken, uitstekende generatiekwaliteit en computationele efficiëntie bieden, vormt het aanpassen ervan aan nieuwe controlecondities—zoals structurele beperkingen, semantische richtlijnen of externe inputs—een aanzienlijke uitdaging. Traditionele benaderingen vereisen vaak computationeel dure aanpassingen aan het basismodel en daaropvolgende diffusiedistillatie. Dit artikel introduceert Noise Consistency Training (NCT), een nieuwe en lichtgewicht benadering om nieuwe controlesignalen direct te integreren in vooraf getrainde éénstapsgeneratoren zonder toegang tot originele trainingsafbeeldingen of het opnieuw trainen van het basisdiffusiemodel. NCT werkt door een adaptermodule te introduceren en een ruisconsistentieverlies te gebruiken in de ruisruimte van de generator. Dit verlies stemt het generatiegedrag van het aangepaste model af over ruis die in verschillende mate conditioneel afhankelijk is, waardoor het impliciet wordt gestuurd om zich aan de nieuwe controle te houden. Theoretisch kan dit trainingsdoel worden begrepen als het minimaliseren van de distributieafstand tussen de aangepaste generator en de conditionele distributie die wordt geïnduceerd door de nieuwe condities. NCT is modulair, data-efficiënt en eenvoudig inzetbaar, en vertrouwt alleen op de vooraf getrainde éénstapsgenerator en een controlesignaalmodel. Uitgebreide experimenten tonen aan dat NCT state-of-the-art controleerbare generatie bereikt in een enkele voorwaartse pass, en bestaande meerstaps- en distillatiegebaseerde methoden overtreft in zowel generatiekwaliteit als computationele efficiëntie. Code is beschikbaar op https://github.com/Luo-Yihong/NCT.
English
The pursuit of efficient and controllable high-quality content generation
remains a central challenge in artificial intelligence-generated content
(AIGC). While one-step generators, enabled by diffusion distillation
techniques, offer excellent generation quality and computational efficiency,
adapting them to new control conditions--such as structural constraints,
semantic guidelines, or external inputs--poses a significant challenge.
Conventional approaches often necessitate computationally expensive
modifications to the base model and subsequent diffusion distillation. This
paper introduces Noise Consistency Training (NCT), a novel and lightweight
approach to directly integrate new control signals into pre-trained one-step
generators without requiring access to original training images or retraining
the base diffusion model. NCT operates by introducing an adapter module and
employs a noise consistency loss in the noise space of the generator. This loss
aligns the adapted model's generation behavior across noises that are
conditionally dependent to varying degrees, implicitly guiding it to adhere to
the new control. Theoretically, this training objective can be understood as
minimizing the distributional distance between the adapted generator and the
conditional distribution induced by the new conditions. NCT is modular,
data-efficient, and easily deployable, relying only on the pre-trained one-step
generator and a control signal model. Extensive experiments demonstrate that
NCT achieves state-of-the-art controllable generation in a single forward pass,
surpassing existing multi-step and distillation-based methods in both
generation quality and computational efficiency. Code is available at
https://github.com/Luo-Yihong/NCT