Token Perturbatie Begeleiding voor Diffusiemodellen

Samenvatting

Classifier-free guidance (CFG) is een essentieel onderdeel geworden van moderne diffusiemodellen om zowel de generatiekwaliteit als de afstemming met invoervoorwaarden te verbeteren. CFG vereist echter specifieke trainingsprocedures en is beperkt tot conditionele generatie. Om deze beperkingen aan te pakken, stellen we Token Perturbation Guidance (TPG) voor, een nieuwe methode die verstoringsmatrices rechtstreeks toepast op tussenliggende tokenrepresentaties binnen het diffusienetwerk. TPG maakt gebruik van een normbehoudende shuffeloperatie om effectieve en stabiele begeleidingssignalen te bieden die de generatiekwaliteit verbeteren zonder architectuurwijzigingen. Hierdoor is TPG trainingsvrij en onafhankelijk van invoervoorwaarden, wat het direct toepasbaar maakt voor zowel conditionele als onvoorwaardelijke generatie. We analyseren verder de begeleidingsterm die door TPG wordt geboden en laten zien dat het effect op de steekproef meer lijkt op CFG in vergelijking met bestaande trainingsvrije begeleidingstechnieken. Uitgebreide experimenten op SDXL en Stable Diffusion 2.1 tonen aan dat TPG een bijna 2-voudige verbetering in FID bereikt voor onvoorwaardelijke generatie ten opzichte van de SDXL-basislijn, terwijl het CFG nauwgezet evenaart in promptafstemming. Deze resultaten vestigen TPG als een algemene, voorwaarde-onafhankelijke begeleidingsmethode die CFG-achtige voordelen biedt aan een bredere klasse van diffusiemodellen. De code is beschikbaar op https://github.com/TaatiTeam/Token-Perturbation-Guidance.

English

Classifier-free guidance (CFG) has become an essential component of modern diffusion models to enhance both generation quality and alignment with input conditions. However, CFG requires specific training procedures and is limited to conditional generation. To address these limitations, we propose Token Perturbation Guidance (TPG), a novel method that applies perturbation matrices directly to intermediate token representations within the diffusion network. TPG employs a norm-preserving shuffling operation to provide effective and stable guidance signals that improve generation quality without architectural changes. As a result, TPG is training-free and agnostic to input conditions, making it readily applicable to both conditional and unconditional generation. We further analyze the guidance term provided by TPG and show that its effect on sampling more closely resembles CFG compared to existing training-free guidance techniques. Extensive experiments on SDXL and Stable Diffusion 2.1 show that TPG achieves nearly a 2times improvement in FID for unconditional generation over the SDXL baseline, while closely matching CFG in prompt alignment. These results establish TPG as a general, condition-agnostic guidance method that brings CFG-like benefits to a broader class of diffusion models. The code is available at https://github.com/TaatiTeam/Token-Perturbation-Guidance

Token Perturbatie Begeleiding voor Diffusiemodellen

Token Perturbation Guidance for Diffusion Models

Samenvatting

Support