HiGS : Échantillonnage Guidé par l'Historique pour l'Amélioration Plug-and-Play des Modèles de Diffusion
HiGS: History-Guided Sampling for Plug-and-Play Enhancement of Diffusion Models
September 26, 2025
papers.authors: Seyedmorteza Sadat, Farnood Salehi, Romann M. Weber
cs.AI
papers.abstract
Bien que les modèles de diffusion aient réalisé des progrès remarquables en génération d'images, leurs résultats peuvent encore paraître irréalistes et manquer de détails fins, en particulier lors de l'utilisation d'un nombre réduit d'évaluations de fonctions neuronales (NFEs) ou de facteurs de guidage plus faibles. Pour résoudre ce problème, nous proposons une nouvelle technique d'échantillonnage basée sur la dynamique, appelée échantillonnage guidé par l'historique (HiGS), qui améliore la qualité et l'efficacité de l'échantillonnage de diffusion en intégrant les prédictions récentes du modèle à chaque étape d'inférence. Plus précisément, HiGS exploite la différence entre la prédiction actuelle et une moyenne pondérée des prédictions passées pour orienter le processus d'échantillonnage vers des résultats plus réalistes, avec de meilleurs détails et une structure plus fine. Notre approche n'introduit pratiquement aucun calcul supplémentaire et s'intègre de manière transparente aux frameworks de diffusion existants, ne nécessitant ni entraînement supplémentaire ni réglage fin. Des expériences approfondies montrent que HiGS améliore systématiquement la qualité des images à travers divers modèles et architectures, et ce, sous différents budgets d'échantillonnage et facteurs de guidage. De plus, en utilisant un modèle SiT préentraîné, HiGS atteint un nouvel état de l'art avec un FID de 1,61 pour la génération non guidée d'ImageNet en 256x256 avec seulement 30 étapes d'échantillonnage (au lieu des 250 habituelles). Nous présentons ainsi HiGS comme une amélioration plug-and-play de l'échantillonnage de diffusion standard, permettant une génération plus rapide avec une fidélité accrue.
English
While diffusion models have made remarkable progress in image generation,
their outputs can still appear unrealistic and lack fine details, especially
when using fewer number of neural function evaluations (NFEs) or lower guidance
scales. To address this issue, we propose a novel momentum-based sampling
technique, termed history-guided sampling (HiGS), which enhances quality and
efficiency of diffusion sampling by integrating recent model predictions into
each inference step. Specifically, HiGS leverages the difference between the
current prediction and a weighted average of past predictions to steer the
sampling process toward more realistic outputs with better details and
structure. Our approach introduces practically no additional computation and
integrates seamlessly into existing diffusion frameworks, requiring neither
extra training nor fine-tuning. Extensive experiments show that HiGS
consistently improves image quality across diverse models and architectures and
under varying sampling budgets and guidance scales. Moreover, using a
pretrained SiT model, HiGS achieves a new state-of-the-art FID of 1.61 for
unguided ImageNet generation at 256times256 with only 30 sampling steps
(instead of the standard 250). We thus present HiGS as a plug-and-play
enhancement to standard diffusion sampling that enables faster generation with
higher fidelity.