Schaalvergroting op inferentietijd voor Diffusie Modellen voorbij het schalen van denoising stappen.Inference-Time Scaling for Diffusion Models beyond Scaling Denoising
Steps
Generatieve modellen hebben aanzienlijke impact gehad op verschillende domeinen, grotendeels vanwege hun vermogen om tijdens training op te schalen door het vergroten van data, rekenkracht en modelgrootte, een fenomeen dat wordt gekenmerkt door de schalingswetten. Recente onderzoeken zijn begonnen met het verkennen van het schalingsgedrag op inferentietijd in Grote Taalmodellen (GTM's), waarbij wordt onthuld hoe de prestaties verder kunnen verbeteren met extra berekening tijdens inferentie. In tegenstelling tot GTM's hebben diffusiemodellen van nature de flexibiliteit om inferentieberekening aan te passen via het aantal denoising-stappen, hoewel de prestatiewinsten meestal afvlakken na enkele tientallen stappen. In dit werk verkennen we het schalingsgedrag op inferentietijd van diffusiemodellen voorbij het verhogen van denoising-stappen en onderzoeken we hoe de generatieprestaties verder kunnen verbeteren met meer berekening. Specifiek bekijken we een zoekprobleem gericht op het identificeren van betere ruis voor het diffusie samplingproces. We structureren de ontwerpruimte langs twee assen: de verificatiemethoden die worden gebruikt om feedback te geven, en de algoritmen die worden gebruikt om betere ruiskandidaten te vinden. Door uitgebreide experimenten op klasse-geconditioneerde en tekst-geconditioneerde beeldgeneratie benchmarks, tonen onze bevindingen aan dat het verhogen van inferentieberekening leidt tot aanzienlijke verbeteringen in de kwaliteit van de door diffusiemodellen gegenereerde monsters, en met de complexe aard van afbeeldingen kunnen combinaties van de componenten in het kader specifiek worden gekozen om overeen te stemmen met verschillende toepassingsscenario's.