ChatPaper.aiChatPaper

S^2-Guidance : Auto-guidance stochastique pour l'amélioration sans entraînement des modèles de diffusion

S^2-Guidance: Stochastic Self Guidance for Training-Free Enhancement of Diffusion Models

August 18, 2025
papers.authors: Chubin Chen, Jiashu Zhu, Xiaokun Feng, Nisha Huang, Meiqi Wu, Fangyuan Mao, Jiahong Wu, Xiangxiang Chu, Xiu Li
cs.AI

papers.abstract

La Guidance sans Classifieur (Classifier-free Guidance, CFG) est une technique largement utilisée dans les modèles de diffusion modernes pour améliorer la qualité des échantillons et l'adhésion aux prompts. Cependant, à travers une analyse empirique sur la modélisation de mélanges gaussiens avec une solution en forme fermée, nous observons une divergence entre les résultats sous-optimaux produits par la CFG et la vérité terrain. La dépendance excessive du modèle envers ces prédictions sous-optimales conduit souvent à une incohérence sémantique et à des sorties de faible qualité. Pour résoudre ce problème, nous démontrons d'abord empiriquement que les prédictions sous-optimales du modèle peuvent être efficacement affinées en utilisant des sous-réseaux du modèle lui-même. Sur la base de cette observation, nous proposons S^2-Guidance, une nouvelle méthode qui exploite l'abandon stochastique de blocs pendant le processus direct pour construire des sous-réseaux stochastiques, guidant efficacement le modèle loin des prédictions potentiellement de faible qualité et vers des sorties de haute qualité. Des expériences qualitatives et quantitatives approfondies sur les tâches de génération texte-image et texte-vidéo démontrent que S^2-Guidance offre une performance supérieure, surpassant systématiquement la CFG et d'autres stratégies de guidage avancées. Notre code sera publié.
English
Classifier-free Guidance (CFG) is a widely used technique in modern diffusion models for enhancing sample quality and prompt adherence. However, through an empirical analysis on Gaussian mixture modeling with a closed-form solution, we observe a discrepancy between the suboptimal results produced by CFG and the ground truth. The model's excessive reliance on these suboptimal predictions often leads to semantic incoherence and low-quality outputs. To address this issue, we first empirically demonstrate that the model's suboptimal predictions can be effectively refined using sub-networks of the model itself. Building on this insight, we propose S^2-Guidance, a novel method that leverages stochastic block-dropping during the forward process to construct stochastic sub-networks, effectively guiding the model away from potential low-quality predictions and toward high-quality outputs. Extensive qualitative and quantitative experiments on text-to-image and text-to-video generation tasks demonstrate that S^2-Guidance delivers superior performance, consistently surpassing CFG and other advanced guidance strategies. Our code will be released.
PDF112August 19, 2025