Mise à l'échelle du temps d'inférence pour les modèles de diffusion au-delà de l'échelle des étapes de débruitage
Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps
January 16, 2025
Auteurs: Nanye Ma, Shangyuan Tong, Haolin Jia, Hexiang Hu, Yu-Chuan Su, Mingda Zhang, Xuan Yang, Yandong Li, Tommi Jaakkola, Xuhui Jia, Saining Xie
cs.AI
Résumé
Les modèles génératifs ont eu des impacts significatifs dans divers domaines, en grande partie grâce à leur capacité à augmenter l'échelle pendant l'entraînement en augmentant les données, les ressources computationnelles et la taille du modèle, un phénomène caractérisé par les lois d'échelle. Des recherches récentes ont commencé à explorer le comportement d'échelle au moment de l'inférence dans les Grands Modèles de Langage (GML), révélant comment les performances peuvent encore s'améliorer avec des calculs supplémentaires pendant l'inférence. Contrairement aux GML, les modèles de diffusion possèdent intrinsèquement la flexibilité d'ajuster le calcul au moment de l'inférence via le nombre d'étapes de débruitage, bien que les gains de performances atteignent généralement un plateau après quelques dizaines. Dans ce travail, nous explorons le comportement d'échelle au moment de l'inférence des modèles de diffusion au-delà de l'augmentation des étapes de débruitage et étudions comment les performances de génération peuvent encore s'améliorer avec une augmentation du calcul. Plus précisément, nous considérons un problème de recherche visant à identifier de meilleurs bruits pour le processus d'échantillonnage de diffusion. Nous structurons l'espace de conception le long de deux axes : les vérificateurs utilisés pour fournir des retours et les algorithmes utilisés pour trouver de meilleurs candidats de bruit. À travers des expériences approfondies sur des référentiels de génération d'images conditionnées par classe et par texte, nos résultats révèlent qu'une augmentation du calcul au moment de l'inférence conduit à des améliorations substantielles dans la qualité des échantillons générés par les modèles de diffusion, et avec la nature complexe des images, des combinaisons des composants du cadre peuvent être spécifiquement choisies pour correspondre à différents scénarios d'application.
English
Generative models have made significant impacts across various domains,
largely due to their ability to scale during training by increasing data,
computational resources, and model size, a phenomenon characterized by the
scaling laws. Recent research has begun to explore inference-time scaling
behavior in Large Language Models (LLMs), revealing how performance can further
improve with additional computation during inference. Unlike LLMs, diffusion
models inherently possess the flexibility to adjust inference-time computation
via the number of denoising steps, although the performance gains typically
flatten after a few dozen. In this work, we explore the inference-time scaling
behavior of diffusion models beyond increasing denoising steps and investigate
how the generation performance can further improve with increased computation.
Specifically, we consider a search problem aimed at identifying better noises
for the diffusion sampling process. We structure the design space along two
axes: the verifiers used to provide feedback, and the algorithms used to find
better noise candidates. Through extensive experiments on class-conditioned and
text-conditioned image generation benchmarks, our findings reveal that
increasing inference-time compute leads to substantial improvements in the
quality of samples generated by diffusion models, and with the complicated
nature of images, combinations of the components in the framework can be
specifically chosen to conform with different application scenario.Summary
AI-Generated Summary