ChatPaper.aiChatPaper

S^2-Guidance: Guía Estocástica Autónoma para la Mejora sin Entrenamiento de Modelos de Difusión

S^2-Guidance: Stochastic Self Guidance for Training-Free Enhancement of Diffusion Models

August 18, 2025
Autores: Chubin Chen, Jiashu Zhu, Xiaokun Feng, Nisha Huang, Meiqi Wu, Fangyuan Mao, Jiahong Wu, Xiangxiang Chu, Xiu Li
cs.AI

Resumen

La Guía sin Clasificador (Classifier-free Guidance, CFG) es una técnica ampliamente utilizada en los modelos de difusión modernos para mejorar la calidad de las muestras y la adherencia a las indicaciones. Sin embargo, mediante un análisis empírico en modelado de mezclas gaussianas con una solución de forma cerrada, observamos una discrepancia entre los resultados subóptimos producidos por CFG y la verdad fundamental. La excesiva dependencia del modelo en estas predicciones subóptimas a menudo conduce a incoherencia semántica y salidas de baja calidad. Para abordar este problema, primero demostramos empíricamente que las predicciones subóptimas del modelo pueden refinarse eficazmente utilizando sub-redes del propio modelo. Basándonos en esta idea, proponemos S^2-Guidance, un método novedoso que aprovecha el bloqueo estocástico durante el proceso directo para construir sub-redes estocásticas, guiando eficazmente al modelo lejos de posibles predicciones de baja calidad y hacia salidas de alta calidad. Experimentos cualitativos y cuantitativos exhaustivos en tareas de generación de texto a imagen y texto a video demuestran que S^2-Guidance ofrece un rendimiento superior, superando consistentemente a CFG y otras estrategias avanzadas de guía. Nuestro código será publicado.
English
Classifier-free Guidance (CFG) is a widely used technique in modern diffusion models for enhancing sample quality and prompt adherence. However, through an empirical analysis on Gaussian mixture modeling with a closed-form solution, we observe a discrepancy between the suboptimal results produced by CFG and the ground truth. The model's excessive reliance on these suboptimal predictions often leads to semantic incoherence and low-quality outputs. To address this issue, we first empirically demonstrate that the model's suboptimal predictions can be effectively refined using sub-networks of the model itself. Building on this insight, we propose S^2-Guidance, a novel method that leverages stochastic block-dropping during the forward process to construct stochastic sub-networks, effectively guiding the model away from potential low-quality predictions and toward high-quality outputs. Extensive qualitative and quantitative experiments on text-to-image and text-to-video generation tasks demonstrate that S^2-Guidance delivers superior performance, consistently surpassing CFG and other advanced guidance strategies. Our code will be released.
PDF112August 19, 2025