HiGS: История-ориентированная выборка для улучшения диффузионных моделей по принципу "подключи и работай"
HiGS: History-Guided Sampling for Plug-and-Play Enhancement of Diffusion Models
September 26, 2025
Авторы: Seyedmorteza Sadat, Farnood Salehi, Romann M. Weber
cs.AI
Аннотация
Хотя диффузионные модели достигли значительных успехов в генерации изображений, их результаты всё ещё могут выглядеть неестественно и недостаточно детализированными, особенно при использовании меньшего числа вычислений нейронных функций (NFEs) или более низких значений масштаба направленности (guidance scale). Для решения этой проблемы мы предлагаем новую технику сэмплинга на основе импульса, названную исторически-ориентированным сэмплингом (HiGS), которая повышает качество и эффективность диффузионного сэмплинга за счёт интеграции последних предсказаний модели на каждом шаге вывода. В частности, HiGS использует разницу между текущим предсказанием и взвешенным средним прошлых предсказаний, чтобы направлять процесс сэмплинга в сторону более реалистичных результатов с улучшенными деталями и структурой. Наш подход практически не требует дополнительных вычислений и легко интегрируется в существующие диффузионные фреймворки, не требуя дополнительного обучения или тонкой настройки. Многочисленные эксперименты показывают, что HiGS стабильно улучшает качество изображений в различных моделях и архитектурах, а также при различных бюджетах сэмплинга и масштабах направленности. Более того, используя предобученную модель SiT, HiGS достигает нового рекордного значения FID, равного 1.61, для ненаправленной генерации ImageNet с разрешением 256×256 всего за 30 шагов сэмплинга (вместо стандартных 250). Таким образом, мы представляем HiGS как готовое к использованию улучшение стандартного диффузионного сэмплинга, которое позволяет ускорить генерацию с более высокой точностью.
English
While diffusion models have made remarkable progress in image generation,
their outputs can still appear unrealistic and lack fine details, especially
when using fewer number of neural function evaluations (NFEs) or lower guidance
scales. To address this issue, we propose a novel momentum-based sampling
technique, termed history-guided sampling (HiGS), which enhances quality and
efficiency of diffusion sampling by integrating recent model predictions into
each inference step. Specifically, HiGS leverages the difference between the
current prediction and a weighted average of past predictions to steer the
sampling process toward more realistic outputs with better details and
structure. Our approach introduces practically no additional computation and
integrates seamlessly into existing diffusion frameworks, requiring neither
extra training nor fine-tuning. Extensive experiments show that HiGS
consistently improves image quality across diverse models and architectures and
under varying sampling budgets and guidance scales. Moreover, using a
pretrained SiT model, HiGS achieves a new state-of-the-art FID of 1.61 for
unguided ImageNet generation at 256times256 with only 30 sampling steps
(instead of the standard 250). We thus present HiGS as a plug-and-play
enhancement to standard diffusion sampling that enables faster generation with
higher fidelity.