Guiando um Transformador de Difusão com a Dinâmica Interna de Si Mesmo

Resumo

O modelo de difusão demonstra uma capacidade poderosa de capturar toda a distribuição de dados (condicional). No entanto, devido à falta de treinamento e dados suficientes para aprender a cobrir áreas de baixa probabilidade, o modelo é penalizado por não gerar imagens de alta qualidade correspondentes a essas áreas. Para alcançar uma melhor qualidade de geração, estratégias de orientação, como a orientação livre de classificador (CFG), podem direcionar as amostras para as áreas de alta probabilidade durante a fase de amostragem. Contudo, a CFG padrão frequentemente resulta em amostras excessivamente simplificadas ou distorcidas. Por outro lado, a linha alternativa de orientação do modelo de difusão com sua versão inferior é limitada por estratégias de degradação cuidadosamente projetadas, treinamento adicional e etapas extras de amostragem. Neste artigo, propomos uma estratégia simples, porém eficaz, chamada Orientação Interna (IG), que introduz uma supervisão auxiliar na camada intermediária durante o processo de treinamento e extrapola as saídas das camadas intermediárias e profundas para obter resultados generativos durante o processo de amostragem. Esta estratégia simples produz melhorias significativas tanto na eficiência do treinamento quanto na qualidade da geração em várias linhas de base. No ImageNet 256x256, o SiT-XL/2+IG alcança FID=5,31 e FID=1,75 em 80 e 800 épocas. Mais impressionantemente, o LightningDiT-XL/1+IG alcança um FID=1,34, representando uma grande margem de vantagem em relação a todos esses métodos. Combinado com a CFG, o LightningDiT-XL/1+IG alcança o estado da arte atual com um FID de 1,19.

English

The diffusion model presents a powerful ability to capture the entire (conditional) data distribution. However, due to the lack of sufficient training and data to learn to cover low-probability areas, the model will be penalized for failing to generate high-quality images corresponding to these areas. To achieve better generation quality, guidance strategies such as classifier free guidance (CFG) can guide the samples to the high-probability areas during the sampling stage. However, the standard CFG often leads to over-simplified or distorted samples. On the other hand, the alternative line of guiding diffusion model with its bad version is limited by carefully designed degradation strategies, extra training and additional sampling steps. In this paper, we proposed a simple yet effective strategy Internal Guidance (IG), which introduces an auxiliary supervision on the intermediate layer during training process and extrapolates the intermediate and deep layer's outputs to obtain generative results during sampling process. This simple strategy yields significant improvements in both training efficiency and generation quality on various baselines. On ImageNet 256x256, SiT-XL/2+IG achieves FID=5.31 and FID=1.75 at 80 and 800 epochs. More impressively, LightningDiT-XL/1+IG achieves FID=1.34 which achieves a large margin between all of these methods. Combined with CFG, LightningDiT-XL/1+IG achieves the current state-of-the-art FID of 1.19.

Guiando um Transformador de Difusão com a Dinâmica Interna de Si Mesmo

Guiding a Diffusion Transformer with the Internal Dynamics of Itself

Resumo

Support