ChatPaper.aiChatPaper

S^2-Guidance: 확산 모델의 학습 없이 성능을 향상시키기 위한 확률적 자기 지도 기법

S^2-Guidance: Stochastic Self Guidance for Training-Free Enhancement of Diffusion Models

August 18, 2025
저자: Chubin Chen, Jiashu Zhu, Xiaokun Feng, Nisha Huang, Meiqi Wu, Fangyuan Mao, Jiahong Wu, Xiangxiang Chu, Xiu Li
cs.AI

초록

Classifier-free Guidance(CFG)는 현대 확산 모델에서 샘플 품질과 프롬프트 준수를 향상시키기 위해 널리 사용되는 기술입니다. 그러나 폐쇄형 해를 갖는 가우시안 혼합 모델링에 대한 실증적 분석을 통해, 우리는 CFG가 생성하는 차선의 결과와 실제 정답 간의 불일치를 관찰했습니다. 모델이 이러한 차선의 예측에 과도하게 의존하는 경우, 의미적 비일관성과 낮은 품질의 출력을 초래하는 경우가 많습니다. 이 문제를 해결하기 위해, 우리는 먼저 모델의 차선의 예측이 모델 자체의 서브 네트워크를 사용하여 효과적으로 개선될 수 있음을 실증적으로 입증합니다. 이러한 통찰을 바탕으로, 우리는 순방향 과정에서 확률적 블록 드롭을 활용하여 확률적 서브 네트워크를 구성함으로써, 모델이 잠재적인 낮은 품질의 예측에서 벗어나 고품질의 출력으로 이끌 수 있는 새로운 방법인 S^2-Guidance를 제안합니다. 텍스트-이미지 및 텍스트-비디오 생성 작업에 대한 광범위한 정성적 및 정량적 실험을 통해, S^2-Guidance가 우수한 성능을 제공하며 CFG 및 기타 고급 가이던스 전략을 지속적으로 능가함을 입증합니다. 우리의 코드는 공개될 예정입니다.
English
Classifier-free Guidance (CFG) is a widely used technique in modern diffusion models for enhancing sample quality and prompt adherence. However, through an empirical analysis on Gaussian mixture modeling with a closed-form solution, we observe a discrepancy between the suboptimal results produced by CFG and the ground truth. The model's excessive reliance on these suboptimal predictions often leads to semantic incoherence and low-quality outputs. To address this issue, we first empirically demonstrate that the model's suboptimal predictions can be effectively refined using sub-networks of the model itself. Building on this insight, we propose S^2-Guidance, a novel method that leverages stochastic block-dropping during the forward process to construct stochastic sub-networks, effectively guiding the model away from potential low-quality predictions and toward high-quality outputs. Extensive qualitative and quantitative experiments on text-to-image and text-to-video generation tasks demonstrate that S^2-Guidance delivers superior performance, consistently surpassing CFG and other advanced guidance strategies. Our code will be released.
PDF112August 19, 2025