Dimensionamento em Tempo de Inferência para Modelos de Difusão além da Etapa de Dimensionamento de DesnitrificaçãoInference-Time Scaling for Diffusion Models beyond Scaling Denoising
Steps
Os modelos generativos têm tido impactos significativos em vários domínios, em grande parte devido à sua capacidade de escalar durante o treinamento aumentando dados, recursos computacionais e tamanho do modelo, um fenômeno caracterizado pelas leis de escala. Pesquisas recentes começaram a explorar o comportamento de escalonamento no tempo de inferência em Modelos de Linguagem Grandes (LLMs), revelando como o desempenho pode melhorar ainda mais com computação adicional durante a inferência. Ao contrário dos LLMs, os modelos de difusão possuem inerentemente a flexibilidade de ajustar a computação no tempo de inferência através do número de etapas de desruído, embora os ganhos de desempenho geralmente se estabilizem após algumas dezenas. Neste trabalho, exploramos o comportamento de escalonamento no tempo de inferência de modelos de difusão além do aumento de etapas de desruído e investigamos como o desempenho de geração pode melhorar ainda mais com maior computação. Especificamente, consideramos um problema de busca com o objetivo de identificar melhores ruídos para o processo de amostragem de difusão. Estruturamos o espaço de design ao longo de dois eixos: os verificadores usados para fornecer feedback e os algoritmos usados para encontrar melhores candidatos a ruído. Através de experimentos extensivos em benchmarks de geração de imagens condicionadas por classe e texto, nossas descobertas revelam que o aumento de computação no tempo de inferência leva a melhorias substanciais na qualidade das amostras geradas por modelos de difusão, e com a natureza complicada das imagens, combinações dos componentes no framework podem ser escolhidas especificamente para se adequarem a diferentes cenários de aplicação.