Fluxos Normalizadores são Modelos Generativos Capazes.
Normalizing Flows are Capable Generative Models
December 9, 2024
Autores: Shuangfei Zhai, Ruixiang Zhang, Preetum Nakkiran, David Berthelot, Jiatao Gu, Huangjie Zheng, Tianrong Chen, Miguel Angel Bautista, Navdeep Jaitly, Josh Susskind
cs.AI
Resumo
Fluxos Normalizadores (NFs) são modelos baseados em verossimilhança para entradas contínuas. Eles têm demonstrado resultados promissores tanto em estimação de densidade quanto em tarefas de modelagem generativa, mas receberam relativamente pouca atenção nos últimos anos. Neste trabalho, demonstramos que os NFs são mais poderosos do que se acreditava anteriormente. Apresentamos o TarFlow: uma arquitetura simples e escalável que permite modelos NF altamente eficientes. O TarFlow pode ser considerado como uma variante baseada em Transformer dos Fluxos Autoregressivos Mascaramentados (MAFs): consiste em uma pilha de blocos autoregressivos do Transformer em patches de imagem, alternando a direção da autoregressão entre as camadas. O TarFlow é fácil de treinar de ponta a ponta e capaz de modelar e gerar pixels diretamente. Também propomos três técnicas-chave para melhorar a qualidade das amostras: aumento de ruído gaussiano durante o treinamento, um procedimento de pós-treinamento de remoção de ruído e um método eficaz de orientação tanto para configurações condicionais de classe quanto incondicionais. Ao juntar esses elementos, o TarFlow estabelece novos resultados de ponta em estimação de verossimilhança para imagens, superando os métodos anteriores por uma grande margem, e gera amostras com qualidade e diversidade comparáveis aos modelos de difusão, pela primeira vez com um modelo NF independente. Disponibilizamos nosso código em https://github.com/apple/ml-tarflow.
English
Normalizing Flows (NFs) are likelihood-based models for continuous inputs.
They have demonstrated promising results on both density estimation and
generative modeling tasks, but have received relatively little attention in
recent years. In this work, we demonstrate that NFs are more powerful than
previously believed. We present TarFlow: a simple and scalable architecture
that enables highly performant NF models. TarFlow can be thought of as a
Transformer-based variant of Masked Autoregressive Flows (MAFs): it consists of
a stack of autoregressive Transformer blocks on image patches, alternating the
autoregression direction between layers. TarFlow is straightforward to train
end-to-end, and capable of directly modeling and generating pixels. We also
propose three key techniques to improve sample quality: Gaussian noise
augmentation during training, a post training denoising procedure, and an
effective guidance method for both class-conditional and unconditional
settings. Putting these together, TarFlow sets new state-of-the-art results on
likelihood estimation for images, beating the previous best methods by a large
margin, and generates samples with quality and diversity comparable to
diffusion models, for the first time with a stand-alone NF model. We make our
code available at https://github.com/apple/ml-tarflow.Summary
AI-Generated Summary