S^2-Guidance: Stochastische Selbstführung zur trainingsfreien Verbesserung von Diffusionsmodellen
S^2-Guidance: Stochastic Self Guidance for Training-Free Enhancement of Diffusion Models
August 18, 2025
papers.authors: Chubin Chen, Jiashu Zhu, Xiaokun Feng, Nisha Huang, Meiqi Wu, Fangyuan Mao, Jiahong Wu, Xiangxiang Chu, Xiu Li
cs.AI
papers.abstract
Classifier-free Guidance (CFG) ist eine weit verbreitete Technik in modernen Diffusionsmodellen, um die Qualität der generierten Proben und die Einhaltung von Eingabeaufforderungen zu verbessern. Durch eine empirische Analyse anhand von Gaußschen Mischungsmodellen mit einer geschlossenen Lösung beobachten wir jedoch eine Diskrepanz zwischen den suboptimalen Ergebnissen, die von CFG erzeugt werden, und der tatsächlichen Wahrheit. Die übermäßige Abhängigkeit des Modells von diesen suboptimalen Vorhersagen führt häufig zu semantischer Inkohärenz und qualitativ minderwertigen Ausgaben. Um dieses Problem zu lösen, zeigen wir zunächst empirisch, dass die suboptimalen Vorhersagen des Modells effektiv mithilfe von Teilnetzwerken des Modells selbst verfeinert werden können. Aufbauend auf dieser Erkenntnis schlagen wir S^2-Guidance vor, eine neuartige Methode, die stochastisches Block-Dropping während des Vorwärtsprozesses nutzt, um stochastische Teilnetzwerke zu konstruieren und das Modell effektiv von potenziell qualitativ schlechten Vorhersagen weg und hin zu hochwertigen Ausgaben zu lenken. Umfangreiche qualitative und quantitative Experimente in den Bereichen Text-zu-Bild- und Text-zu-Video-Generierung zeigen, dass S^2-Guidance eine überlegene Leistung erbringt und dabei konsequent CFG sowie andere fortschrittliche Leitstrategien übertrifft. Unser Code wird veröffentlicht.
English
Classifier-free Guidance (CFG) is a widely used technique in modern diffusion
models for enhancing sample quality and prompt adherence. However, through an
empirical analysis on Gaussian mixture modeling with a closed-form solution, we
observe a discrepancy between the suboptimal results produced by CFG and the
ground truth. The model's excessive reliance on these suboptimal predictions
often leads to semantic incoherence and low-quality outputs. To address this
issue, we first empirically demonstrate that the model's suboptimal predictions
can be effectively refined using sub-networks of the model itself. Building on
this insight, we propose S^2-Guidance, a novel method that leverages stochastic
block-dropping during the forward process to construct stochastic sub-networks,
effectively guiding the model away from potential low-quality predictions and
toward high-quality outputs. Extensive qualitative and quantitative experiments
on text-to-image and text-to-video generation tasks demonstrate that
S^2-Guidance delivers superior performance, consistently surpassing CFG and
other advanced guidance strategies. Our code will be released.