Mise à l'échelle du temps d'inférence pour les modèles de diffusion au-delà de l'échelle des étapes de débruitage

papers.abstract

Les modèles génératifs ont eu des impacts significatifs dans divers domaines, en grande partie grâce à leur capacité à augmenter l'échelle pendant l'entraînement en augmentant les données, les ressources computationnelles et la taille du modèle, un phénomène caractérisé par les lois d'échelle. Des recherches récentes ont commencé à explorer le comportement d'échelle au moment de l'inférence dans les Grands Modèles de Langage (GML), révélant comment les performances peuvent encore s'améliorer avec des calculs supplémentaires pendant l'inférence. Contrairement aux GML, les modèles de diffusion possèdent intrinsèquement la flexibilité d'ajuster le calcul au moment de l'inférence via le nombre d'étapes de débruitage, bien que les gains de performances atteignent généralement un plateau après quelques dizaines. Dans ce travail, nous explorons le comportement d'échelle au moment de l'inférence des modèles de diffusion au-delà de l'augmentation des étapes de débruitage et étudions comment les performances de génération peuvent encore s'améliorer avec une augmentation du calcul. Plus précisément, nous considérons un problème de recherche visant à identifier de meilleurs bruits pour le processus d'échantillonnage de diffusion. Nous structurons l'espace de conception le long de deux axes : les vérificateurs utilisés pour fournir des retours et les algorithmes utilisés pour trouver de meilleurs candidats de bruit. À travers des expériences approfondies sur des référentiels de génération d'images conditionnées par classe et par texte, nos résultats révèlent qu'une augmentation du calcul au moment de l'inférence conduit à des améliorations substantielles dans la qualité des échantillons générés par les modèles de diffusion, et avec la nature complexe des images, des combinaisons des composants du cadre peuvent être spécifiquement choisies pour correspondre à différents scénarios d'application.

English

Generative models have made significant impacts across various domains, largely due to their ability to scale during training by increasing data, computational resources, and model size, a phenomenon characterized by the scaling laws. Recent research has begun to explore inference-time scaling behavior in Large Language Models (LLMs), revealing how performance can further improve with additional computation during inference. Unlike LLMs, diffusion models inherently possess the flexibility to adjust inference-time computation via the number of denoising steps, although the performance gains typically flatten after a few dozen. In this work, we explore the inference-time scaling behavior of diffusion models beyond increasing denoising steps and investigate how the generation performance can further improve with increased computation. Specifically, we consider a search problem aimed at identifying better noises for the diffusion sampling process. We structure the design space along two axes: the verifiers used to provide feedback, and the algorithms used to find better noise candidates. Through extensive experiments on class-conditioned and text-conditioned image generation benchmarks, our findings reveal that increasing inference-time compute leads to substantial improvements in the quality of samples generated by diffusion models, and with the complicated nature of images, combinations of the components in the framework can be specifically chosen to conform with different application scenario.

Mise à l'échelle du temps d'inférence pour les modèles de diffusion au-delà de l'échelle des étapes de débruitage

Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps

papers.abstract

Support