S^2-Guidance: Guía Estocástica Autónoma para la Mejora sin Entrenamiento de Modelos de Difusión
S^2-Guidance: Stochastic Self Guidance for Training-Free Enhancement of Diffusion Models
August 18, 2025
Autores: Chubin Chen, Jiashu Zhu, Xiaokun Feng, Nisha Huang, Meiqi Wu, Fangyuan Mao, Jiahong Wu, Xiangxiang Chu, Xiu Li
cs.AI
Resumen
La Guía sin Clasificador (Classifier-free Guidance, CFG) es una técnica ampliamente utilizada en los modelos de difusión modernos para mejorar la calidad de las muestras y la adherencia a las indicaciones. Sin embargo, mediante un análisis empírico en modelado de mezclas gaussianas con una solución de forma cerrada, observamos una discrepancia entre los resultados subóptimos producidos por CFG y la verdad fundamental. La excesiva dependencia del modelo en estas predicciones subóptimas a menudo conduce a incoherencia semántica y salidas de baja calidad. Para abordar este problema, primero demostramos empíricamente que las predicciones subóptimas del modelo pueden refinarse eficazmente utilizando sub-redes del propio modelo. Basándonos en esta idea, proponemos S^2-Guidance, un método novedoso que aprovecha el bloqueo estocástico durante el proceso directo para construir sub-redes estocásticas, guiando eficazmente al modelo lejos de posibles predicciones de baja calidad y hacia salidas de alta calidad. Experimentos cualitativos y cuantitativos exhaustivos en tareas de generación de texto a imagen y texto a video demuestran que S^2-Guidance ofrece un rendimiento superior, superando consistentemente a CFG y otras estrategias avanzadas de guía. Nuestro código será publicado.
English
Classifier-free Guidance (CFG) is a widely used technique in modern diffusion
models for enhancing sample quality and prompt adherence. However, through an
empirical analysis on Gaussian mixture modeling with a closed-form solution, we
observe a discrepancy between the suboptimal results produced by CFG and the
ground truth. The model's excessive reliance on these suboptimal predictions
often leads to semantic incoherence and low-quality outputs. To address this
issue, we first empirically demonstrate that the model's suboptimal predictions
can be effectively refined using sub-networks of the model itself. Building on
this insight, we propose S^2-Guidance, a novel method that leverages stochastic
block-dropping during the forward process to construct stochastic sub-networks,
effectively guiding the model away from potential low-quality predictions and
toward high-quality outputs. Extensive qualitative and quantitative experiments
on text-to-image and text-to-video generation tasks demonstrate that
S^2-Guidance delivers superior performance, consistently surpassing CFG and
other advanced guidance strategies. Our code will be released.