Масштабирование времени вывода для моделей диффузии за пределами масштабирования шагов шумоподавленияInference-Time Scaling for Diffusion Models beyond Scaling Denoising
Steps
Генеративные модели оказали значительное влияние в различных областях, в значительной степени благодаря их способности масштабироваться во время обучения путем увеличения данных, вычислительных ресурсов и размера модели, явление, описываемое законами масштабирования. Недавние исследования начали изучать поведение масштабирования во время вывода в больших языковых моделях (LLM), раскрывая, как производительность может дополнительно улучшаться с дополнительными вычислениями во время вывода. В отличие от LLM, модели диффузии по своей природе обладают гибкостью в настройке вычислений во время вывода с помощью количества шагов денойзинга, хотя прирост производительности обычно замедляется после нескольких десятков. В данной работе мы исследуем поведение масштабирования во время вывода моделей диффузии за пределами увеличения шагов денойзинга и исследуем, как производительность генерации может дополнительно улучшиться с увеличением вычислений. Конкретно, мы рассматриваем задачу поиска с целью выявления лучших шумов для процесса диффузионной выборки. Мы структурируем пространство проектирования по двум осям: верификаторы, используемые для обратной связи, и алгоритмы, используемые для поиска лучших кандидатов на шум. Через обширные эксперименты на классифицированных и текстовых образцах генерации изображений наша работа показывает, что увеличение времени вывода приводит к существенному улучшению качества образцов, сгенерированных моделями диффузии, и с учетом сложной природы изображений, комбинации компонентов в рамках могут быть специально выбраны для соответствия различным сценариям применения.