Token Perturbatie Begeleiding voor Diffusiemodellen
Token Perturbation Guidance for Diffusion Models
June 10, 2025
Auteurs: Javad Rajabi, Soroush Mehraban, Seyedmorteza Sadat, Babak Taati
cs.AI
Samenvatting
Classifier-free guidance (CFG) is een essentieel onderdeel geworden van moderne diffusiemodellen om zowel de generatiekwaliteit als de afstemming met invoervoorwaarden te verbeteren. CFG vereist echter specifieke trainingsprocedures en is beperkt tot conditionele generatie. Om deze beperkingen aan te pakken, stellen we Token Perturbation Guidance (TPG) voor, een nieuwe methode die verstoringsmatrices rechtstreeks toepast op tussenliggende tokenrepresentaties binnen het diffusienetwerk. TPG maakt gebruik van een normbehoudende shuffeloperatie om effectieve en stabiele begeleidingssignalen te bieden die de generatiekwaliteit verbeteren zonder architectuurwijzigingen. Hierdoor is TPG trainingsvrij en onafhankelijk van invoervoorwaarden, wat het direct toepasbaar maakt voor zowel conditionele als onvoorwaardelijke generatie. We analyseren verder de begeleidingsterm die door TPG wordt geboden en laten zien dat het effect op de steekproef meer lijkt op CFG in vergelijking met bestaande trainingsvrije begeleidingstechnieken. Uitgebreide experimenten op SDXL en Stable Diffusion 2.1 tonen aan dat TPG een bijna 2-voudige verbetering in FID bereikt voor onvoorwaardelijke generatie ten opzichte van de SDXL-basislijn, terwijl het CFG nauwgezet evenaart in promptafstemming. Deze resultaten vestigen TPG als een algemene, voorwaarde-onafhankelijke begeleidingsmethode die CFG-achtige voordelen biedt aan een bredere klasse van diffusiemodellen. De code is beschikbaar op https://github.com/TaatiTeam/Token-Perturbation-Guidance.
English
Classifier-free guidance (CFG) has become an essential component of modern
diffusion models to enhance both generation quality and alignment with input
conditions. However, CFG requires specific training procedures and is limited
to conditional generation. To address these limitations, we propose Token
Perturbation Guidance (TPG), a novel method that applies perturbation matrices
directly to intermediate token representations within the diffusion network.
TPG employs a norm-preserving shuffling operation to provide effective and
stable guidance signals that improve generation quality without architectural
changes. As a result, TPG is training-free and agnostic to input conditions,
making it readily applicable to both conditional and unconditional generation.
We further analyze the guidance term provided by TPG and show that its effect
on sampling more closely resembles CFG compared to existing training-free
guidance techniques. Extensive experiments on SDXL and Stable Diffusion 2.1
show that TPG achieves nearly a 2times improvement in FID for unconditional
generation over the SDXL baseline, while closely matching CFG in prompt
alignment. These results establish TPG as a general, condition-agnostic
guidance method that brings CFG-like benefits to a broader class of diffusion
models. The code is available at
https://github.com/TaatiTeam/Token-Perturbation-Guidance