S^2-Guidance: Stochastische Zelfbegeleiding voor Trainingsvrije Verbetering van Diffusiemodellen
S^2-Guidance: Stochastic Self Guidance for Training-Free Enhancement of Diffusion Models
August 18, 2025
Auteurs: Chubin Chen, Jiashu Zhu, Xiaokun Feng, Nisha Huang, Meiqi Wu, Fangyuan Mao, Jiahong Wu, Xiangxiang Chu, Xiu Li
cs.AI
Samenvatting
Classifier-free Guidance (CFG) is een veelgebruikte techniek in moderne diffusiemodellen voor het verbeteren van de kwaliteit van samples en de naleving van prompts. Echter, door een empirische analyse van Gaussische mengselmodellering met een gesloten oplossing, observeren we een discrepantie tussen de suboptimale resultaten die door CFG worden geproduceerd en de grondwaarheid. De overmatige afhankelijkheid van het model van deze suboptimale voorspellingen leidt vaak tot semantische incoherentie en outputs van lage kwaliteit. Om dit probleem aan te pakken, tonen we eerst empirisch aan dat de suboptimale voorspellingen van het model effectief kunnen worden verfijnd met behulp van sub-netwerken van het model zelf. Gebaseerd op dit inzicht, stellen we S^2-Guidance voor, een nieuwe methode die gebruikmaakt van stochastische blokdropping tijdens het voorwaartse proces om stochastische sub-netwerken te construeren, waardoor het model effectief wordt geleid weg van potentiële voorspellingen van lage kwaliteit en naar outputs van hoge kwaliteit. Uitgebreide kwalitatieve en kwantitatieve experimenten op tekst-naar-beeld en tekst-naar-video generatietaken tonen aan dat S^2-Guidance superieure prestaties levert, en consistent CFG en andere geavanceerde begeleidingsstrategieën overtreft. Onze code zal worden vrijgegeven.
English
Classifier-free Guidance (CFG) is a widely used technique in modern diffusion
models for enhancing sample quality and prompt adherence. However, through an
empirical analysis on Gaussian mixture modeling with a closed-form solution, we
observe a discrepancy between the suboptimal results produced by CFG and the
ground truth. The model's excessive reliance on these suboptimal predictions
often leads to semantic incoherence and low-quality outputs. To address this
issue, we first empirically demonstrate that the model's suboptimal predictions
can be effectively refined using sub-networks of the model itself. Building on
this insight, we propose S^2-Guidance, a novel method that leverages stochastic
block-dropping during the forward process to construct stochastic sub-networks,
effectively guiding the model away from potential low-quality predictions and
toward high-quality outputs. Extensive qualitative and quantitative experiments
on text-to-image and text-to-video generation tasks demonstrate that
S^2-Guidance delivers superior performance, consistently surpassing CFG and
other advanced guidance strategies. Our code will be released.