Mise à l'échelle du temps d'inférence pour les modÚles de diffusion au-delà de l'échelle des étapes de débruitageInference-Time Scaling for Diffusion Models beyond Scaling Denoising
Steps
Les modĂšles gĂ©nĂ©ratifs ont eu des impacts significatifs dans divers domaines, en grande partie grĂące Ă leur capacitĂ© Ă augmenter l'Ă©chelle pendant l'entraĂźnement en augmentant les donnĂ©es, les ressources computationnelles et la taille du modĂšle, un phĂ©nomĂšne caractĂ©risĂ© par les lois d'Ă©chelle. Des recherches rĂ©centes ont commencĂ© Ă explorer le comportement d'Ă©chelle au moment de l'infĂ©rence dans les Grands ModĂšles de Langage (GML), rĂ©vĂ©lant comment les performances peuvent encore s'amĂ©liorer avec des calculs supplĂ©mentaires pendant l'infĂ©rence. Contrairement aux GML, les modĂšles de diffusion possĂšdent intrinsĂšquement la flexibilitĂ© d'ajuster le calcul au moment de l'infĂ©rence via le nombre d'Ă©tapes de dĂ©bruitage, bien que les gains de performances atteignent gĂ©nĂ©ralement un plateau aprĂšs quelques dizaines. Dans ce travail, nous explorons le comportement d'Ă©chelle au moment de l'infĂ©rence des modĂšles de diffusion au-delĂ de l'augmentation des Ă©tapes de dĂ©bruitage et Ă©tudions comment les performances de gĂ©nĂ©ration peuvent encore s'amĂ©liorer avec une augmentation du calcul. Plus prĂ©cisĂ©ment, nous considĂ©rons un problĂšme de recherche visant Ă identifier de meilleurs bruits pour le processus d'Ă©chantillonnage de diffusion. Nous structurons l'espace de conception le long de deux axes : les vĂ©rificateurs utilisĂ©s pour fournir des retours et les algorithmes utilisĂ©s pour trouver de meilleurs candidats de bruit. Ă travers des expĂ©riences approfondies sur des rĂ©fĂ©rentiels de gĂ©nĂ©ration d'images conditionnĂ©es par classe et par texte, nos rĂ©sultats rĂ©vĂšlent qu'une augmentation du calcul au moment de l'infĂ©rence conduit Ă des amĂ©liorations substantielles dans la qualitĂ© des Ă©chantillons gĂ©nĂ©rĂ©s par les modĂšles de diffusion, et avec la nature complexe des images, des combinaisons des composants du cadre peuvent ĂȘtre spĂ©cifiquement choisies pour correspondre Ă diffĂ©rents scĂ©narios d'application.