Обучение согласованности шума: естественный подход для одношагового генератора в изучении дополнительных управлений
Noise Consistency Training: A Native Approach for One-Step Generator in Learning Additional Controls
June 24, 2025
Авторы: Yihong Luo, Shuchen Xue, Tianyang Hu, Jing Tang
cs.AI
Аннотация
Стремление к созданию эффективного и управляемого высококачественного контента остается ключевой задачей в области генерации контента с использованием искусственного интеллекта (AIGC). Хотя одношаговые генераторы, основанные на методах дистилляции диффузии, обеспечивают превосходное качество генерации и вычислительную эффективность, их адаптация к новым управляющим условиям — таким как структурные ограничения, семантические указания или внешние входные данные — представляет собой значительную проблему. Традиционные подходы часто требуют дорогостоящих вычислительных модификаций базовой модели и последующей дистилляции диффузии. В данной статье представлен метод Noise Consistency Training (NCT), новый и легковесный подход, который позволяет напрямую интегрировать новые управляющие сигналы в предварительно обученные одношаговые генераторы без необходимости доступа к исходным обучающим изображениям или переобучения базовой модели диффузии. NCT работает путем введения адаптерного модуля и использования функции потерь согласованности шума в пространстве шума генератора. Эта функция потерь согласует поведение адаптированной модели при генерации для шумов, которые условно зависят в различной степени, неявно направляя модель на соблюдение новых управляющих условий. Теоретически эту цель обучения можно интерпретировать как минимизацию распределительного расстояния между адаптированным генератором и условным распределением, индуцированным новыми условиями. NCT является модульным, эффективным по данным и легко внедряемым, полагаясь только на предварительно обученный одношаговый генератор и модель управляющего сигнала. Многочисленные эксперименты демонстрируют, что NCT достигает передовых результатов в управляемой генерации за один прямой проход, превосходя существующие многошаговые и основанные на дистилляции методы как по качеству генерации, так и по вычислительной эффективности. Код доступен по адресу https://github.com/Luo-Yihong/NCT.
English
The pursuit of efficient and controllable high-quality content generation
remains a central challenge in artificial intelligence-generated content
(AIGC). While one-step generators, enabled by diffusion distillation
techniques, offer excellent generation quality and computational efficiency,
adapting them to new control conditions--such as structural constraints,
semantic guidelines, or external inputs--poses a significant challenge.
Conventional approaches often necessitate computationally expensive
modifications to the base model and subsequent diffusion distillation. This
paper introduces Noise Consistency Training (NCT), a novel and lightweight
approach to directly integrate new control signals into pre-trained one-step
generators without requiring access to original training images or retraining
the base diffusion model. NCT operates by introducing an adapter module and
employs a noise consistency loss in the noise space of the generator. This loss
aligns the adapted model's generation behavior across noises that are
conditionally dependent to varying degrees, implicitly guiding it to adhere to
the new control. Theoretically, this training objective can be understood as
minimizing the distributional distance between the adapted generator and the
conditional distribution induced by the new conditions. NCT is modular,
data-efficient, and easily deployable, relying only on the pre-trained one-step
generator and a control signal model. Extensive experiments demonstrate that
NCT achieves state-of-the-art controllable generation in a single forward pass,
surpassing existing multi-step and distillation-based methods in both
generation quality and computational efficiency. Code is available at
https://github.com/Luo-Yihong/NCT