Scaling temporale per modelli di diffusione oltre il ridimensionamento dei passaggi di denoisingInference-Time Scaling for Diffusion Models beyond Scaling Denoising
Steps
I modelli generativi hanno avuto un impatto significativo in vari ambiti, in gran parte grazie alla loro capacità di scalare durante l'addestramento aumentando i dati, le risorse computazionali e le dimensioni del modello, un fenomeno caratterizzato dalle leggi di scaling. Ricerche recenti hanno iniziato a esplorare il comportamento di scaling al momento dell'inferenza nei Grandi Modelli Linguistici (LLM), rivelando come le prestazioni possano ulteriormente migliorare con ulteriori calcoli durante l'inferenza. A differenza dei LLM, i modelli di diffusione possiedono intrinsecamente la flessibilità di regolare il calcolo al momento dell'inferenza tramite il numero di passaggi di denoising, anche se i guadagni di prestazioni tendono tipicamente a stabilizzarsi dopo alcune dozzine. In questo lavoro, esploriamo il comportamento di scaling al momento dell'inferenza dei modelli di diffusione oltre all'aumento dei passaggi di denoising e indaghiamo su come le prestazioni di generazione possano ulteriormente migliorare con un calcolo aumentato. In particolare, consideriamo un problema di ricerca mirato a identificare migliori rumori per il processo di campionamento di diffusione. Strutturiamo lo spazio di progettazione lungo due assi: i verificatori utilizzati per fornire feedback e gli algoritmi utilizzati per trovare migliori candidati di rumore. Attraverso estesi esperimenti su benchmark di generazione di immagini condizionate alla classe e al testo, le nostre scoperte rivelano che l'aumento del calcolo al momento dell'inferenza porta a miglioramenti sostanziali nella qualità dei campioni generati dai modelli di diffusione e, con la natura complicata delle immagini, le combinazioni dei componenti nel framework possono essere scelte specificamente per conformarsi a diversi scenari applicativi.