S^2-Guidance: Guida Stocastica Automatica per il Miglioramento Senza Addestramento dei Modelli di Diffusione
S^2-Guidance: Stochastic Self Guidance for Training-Free Enhancement of Diffusion Models
August 18, 2025
Autori: Chubin Chen, Jiashu Zhu, Xiaokun Feng, Nisha Huang, Meiqi Wu, Fangyuan Mao, Jiahong Wu, Xiangxiang Chu, Xiu Li
cs.AI
Abstract
La Classifier-free Guidance (CFG) è una tecnica ampiamente utilizzata nei moderni modelli di diffusione per migliorare la qualità dei campioni e l'aderenza ai prompt. Tuttavia, attraverso un'analisi empirica sulla modellazione di miscele gaussiane con una soluzione in forma chiusa, osserviamo una discrepanza tra i risultati subottimali prodotti dalla CFG e la verità di riferimento. L'eccessiva dipendenza del modello da queste previsioni subottimali spesso porta a incoerenze semantiche e output di bassa qualità. Per affrontare questo problema, dimostriamo empiricamente che le previsioni subottimali del modello possono essere efficacemente affinate utilizzando sotto-reti del modello stesso. Basandoci su questa intuizione, proponiamo S^2-Guidance, un metodo innovativo che sfrutta il dropout stocastico di blocchi durante il processo di forward per costruire sotto-reti stocastiche, guidando efficacemente il modello lontano da potenziali previsioni di bassa qualità e verso output di alta qualità. Esperimenti qualitativi e quantitativi estesi su task di generazione testo-immagine e testo-video dimostrano che S^2-Guidance offre prestazioni superiori, superando costantemente la CFG e altre strategie di guida avanzate. Il nostro codice verrà rilasciato.
English
Classifier-free Guidance (CFG) is a widely used technique in modern diffusion
models for enhancing sample quality and prompt adherence. However, through an
empirical analysis on Gaussian mixture modeling with a closed-form solution, we
observe a discrepancy between the suboptimal results produced by CFG and the
ground truth. The model's excessive reliance on these suboptimal predictions
often leads to semantic incoherence and low-quality outputs. To address this
issue, we first empirically demonstrate that the model's suboptimal predictions
can be effectively refined using sub-networks of the model itself. Building on
this insight, we propose S^2-Guidance, a novel method that leverages stochastic
block-dropping during the forward process to construct stochastic sub-networks,
effectively guiding the model away from potential low-quality predictions and
toward high-quality outputs. Extensive qualitative and quantitative experiments
on text-to-image and text-to-video generation tasks demonstrate that
S^2-Guidance delivers superior performance, consistently surpassing CFG and
other advanced guidance strategies. Our code will be released.