Направление с возмущением токенов для диффузионных моделей
Token Perturbation Guidance for Diffusion Models
June 10, 2025
Авторы: Javad Rajabi, Soroush Mehraban, Seyedmorteza Sadat, Babak Taati
cs.AI
Аннотация
Классификаторно-независимое управление (Classifier-free guidance, CFG) стало важным компонентом современных диффузионных моделей, улучшающим как качество генерации, так и соответствие входным условиям. Однако CFG требует специфических процедур обучения и ограничено условной генерацией. Чтобы устранить эти ограничения, мы предлагаем метод Token Perturbation Guidance (TPG), который применяет матрицы возмущений непосредственно к промежуточным представлениям токенов внутри диффузионной сети. TPG использует нормосохраняющую операцию перестановки для обеспечения эффективных и стабильных сигналов управления, улучшающих качество генерации без изменения архитектуры. В результате TPG не требует обучения и не зависит от входных условий, что делает его применимым как для условной, так и для безусловной генерации. Мы также анализируем управляющий член, предоставляемый TPG, и показываем, что его влияние на выборку более близко к CFG по сравнению с существующими методами управления, не требующими обучения. Эксперименты на моделях SDXL и Stable Diffusion 2.1 демонстрируют, что TPG достигает почти двукратного улучшения FID для безусловной генерации по сравнению с базовой моделью SDXL, при этом близко соответствуя CFG в согласовании с запросами. Эти результаты подтверждают TPG как универсальный метод управления, не зависящий от условий, который приносит преимущества, подобные CFG, для более широкого класса диффузионных моделей. Код доступен по адресу: https://github.com/TaatiTeam/Token-Perturbation-Guidance.
English
Classifier-free guidance (CFG) has become an essential component of modern
diffusion models to enhance both generation quality and alignment with input
conditions. However, CFG requires specific training procedures and is limited
to conditional generation. To address these limitations, we propose Token
Perturbation Guidance (TPG), a novel method that applies perturbation matrices
directly to intermediate token representations within the diffusion network.
TPG employs a norm-preserving shuffling operation to provide effective and
stable guidance signals that improve generation quality without architectural
changes. As a result, TPG is training-free and agnostic to input conditions,
making it readily applicable to both conditional and unconditional generation.
We further analyze the guidance term provided by TPG and show that its effect
on sampling more closely resembles CFG compared to existing training-free
guidance techniques. Extensive experiments on SDXL and Stable Diffusion 2.1
show that TPG achieves nearly a 2times improvement in FID for unconditional
generation over the SDXL baseline, while closely matching CFG in prompt
alignment. These results establish TPG as a general, condition-agnostic
guidance method that brings CFG-like benefits to a broader class of diffusion
models. The code is available at
https://github.com/TaatiTeam/Token-Perturbation-Guidance