Rauschkonsistenz-Training: Ein nativer Ansatz für Ein-Schritt-Generatoren beim Erlernen zusätzlicher Kontrollen
Noise Consistency Training: A Native Approach for One-Step Generator in Learning Additional Controls
June 24, 2025
Autoren: Yihong Luo, Shuchen Xue, Tianyang Hu, Jing Tang
cs.AI
Zusammenfassung
Das Streben nach effizienter und kontrollierbarer Erzeugung hochwertiger Inhalte bleibt eine zentrale Herausforderung im Bereich der künstlichen Intelligenz-generierten Inhalte (AIGC). Während Ein-Schritt-Generatoren, ermöglicht durch Diffusionsdistillationstechniken, eine hervorragende Generierungsqualität und Recheneffizienz bieten, stellt die Anpassung an neue Kontrollbedingungen – wie strukturelle Einschränkungen, semantische Richtlinien oder externe Eingaben – eine erhebliche Herausforderung dar. Konventionelle Ansätze erfordern oft rechenintensive Modifikationen des Basismodells und anschließende Diffusionsdistillation. Diese Arbeit stellt Noise Consistency Training (NCT) vor, einen neuartigen und leichtgewichtigen Ansatz, um neue Kontrollsignale direkt in vortrainierte Ein-Schritt-Generatoren zu integrieren, ohne Zugriff auf die ursprünglichen Trainingsbilder oder eine Neuanpassung des Basis-Diffusionsmodells zu benötigen. NCT funktioniert durch die Einführung eines Adaptermoduls und verwendet einen Noise Consistency Loss im Rauschraum des Generators. Dieser Loss sorgt dafür, dass das angepasste Modell sein Generierungsverhalten über Rauschen hinweg abstimmt, die in unterschiedlichem Maße bedingt abhängig sind, und leitet es implizit an, sich an die neue Kontrolle zu halten. Theoretisch kann dieses Trainingsziel als Minimierung der Verteilungsdistanz zwischen dem angepassten Generator und der durch die neuen Bedingungen induzierten bedingten Verteilung verstanden werden. NCT ist modular, dateneffizient und leicht einsetzbar, da es nur auf dem vortrainierten Ein-Schritt-Generator und einem Kontrollsignalmodell basiert. Umfangreiche Experimente zeigen, dass NCT eine state-of-the-art kontrollierbare Generierung in einem einzigen Vorwärtsdurchlauf erreicht und dabei bestehende Mehrschritt- und Distillations-basierte Methoden sowohl in der Generierungsqualität als auch in der Recheneffizienz übertrifft. Der Code ist verfügbar unter https://github.com/Luo-Yihong/NCT.
English
The pursuit of efficient and controllable high-quality content generation
remains a central challenge in artificial intelligence-generated content
(AIGC). While one-step generators, enabled by diffusion distillation
techniques, offer excellent generation quality and computational efficiency,
adapting them to new control conditions--such as structural constraints,
semantic guidelines, or external inputs--poses a significant challenge.
Conventional approaches often necessitate computationally expensive
modifications to the base model and subsequent diffusion distillation. This
paper introduces Noise Consistency Training (NCT), a novel and lightweight
approach to directly integrate new control signals into pre-trained one-step
generators without requiring access to original training images or retraining
the base diffusion model. NCT operates by introducing an adapter module and
employs a noise consistency loss in the noise space of the generator. This loss
aligns the adapted model's generation behavior across noises that are
conditionally dependent to varying degrees, implicitly guiding it to adhere to
the new control. Theoretically, this training objective can be understood as
minimizing the distributional distance between the adapted generator and the
conditional distribution induced by the new conditions. NCT is modular,
data-efficient, and easily deployable, relying only on the pre-trained one-step
generator and a control signal model. Extensive experiments demonstrate that
NCT achieves state-of-the-art controllable generation in a single forward pass,
surpassing existing multi-step and distillation-based methods in both
generation quality and computational efficiency. Code is available at
https://github.com/Luo-Yihong/NCT