ChatPaper.aiChatPaper

HiGS: 확산 모델의 플러그 앤 플레이 성능 향상을 위한 역사 기반 샘플링

HiGS: History-Guided Sampling for Plug-and-Play Enhancement of Diffusion Models

September 26, 2025
저자: Seyedmorteza Sadat, Farnood Salehi, Romann M. Weber
cs.AI

초록

확산 모델은 이미지 생성 분야에서 놀라운 발전을 이루었지만, 특히 신경망 함수 평가(NFEs) 횟수가 적거나 가이던스 스케일이 낮을 때, 출력 결과가 비현실적으로 보이거나 미세한 디테일이 부족할 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 새로운 모멘텀 기반 샘플링 기법인 역사 기반 샘플링(HiGS)을 제안합니다. HiGS는 최근의 모델 예측을 각 추론 단계에 통합함으로써 확산 샘플링의 품질과 효율성을 향상시킵니다. 구체적으로, HiGS는 현재 예측과 과거 예측의 가중 평균 간의 차이를 활용하여 샘플링 과정을 더 현실적이고 디테일과 구조가 뛰어난 출력으로 이끕니다. 우리의 접근 방식은 추가적인 계산을 거의 도입하지 않으며, 기존의 확산 프레임워크에 원활하게 통합되어 추가적인 학습이나 미세 조정이 필요하지 않습니다. 다양한 모델과 아키텍처에서, 그리고 다양한 샘플링 예산과 가이던스 스케일 하에서 수행된 광범위한 실험 결과, HiGS는 일관되게 이미지 품질을 개선하는 것으로 나타났습니다. 더 나아가, 사전 학습된 SiT 모델을 사용하여 HiGS는 256x256 크기의 비가이던스 ImageNet 생성에서 표준 250단계 대신 단 30단계만으로 1.61의 새로운 최첨단 FID를 달성했습니다. 따라서 우리는 HiGS를 표준 확산 샘플링에 즉시 적용 가능한 플러그 앤 플레이 개선 사항으로 제시하며, 더 빠른 생성과 더 높은 충실도를 가능하게 합니다.
English
While diffusion models have made remarkable progress in image generation, their outputs can still appear unrealistic and lack fine details, especially when using fewer number of neural function evaluations (NFEs) or lower guidance scales. To address this issue, we propose a novel momentum-based sampling technique, termed history-guided sampling (HiGS), which enhances quality and efficiency of diffusion sampling by integrating recent model predictions into each inference step. Specifically, HiGS leverages the difference between the current prediction and a weighted average of past predictions to steer the sampling process toward more realistic outputs with better details and structure. Our approach introduces practically no additional computation and integrates seamlessly into existing diffusion frameworks, requiring neither extra training nor fine-tuning. Extensive experiments show that HiGS consistently improves image quality across diverse models and architectures and under varying sampling budgets and guidance scales. Moreover, using a pretrained SiT model, HiGS achieves a new state-of-the-art FID of 1.61 for unguided ImageNet generation at 256times256 with only 30 sampling steps (instead of the standard 250). We thus present HiGS as a plug-and-play enhancement to standard diffusion sampling that enables faster generation with higher fidelity.
PDF22September 29, 2025