Normaliserende stromen zijn capabele generatieve modellen.
Normalizing Flows are Capable Generative Models
December 9, 2024
Auteurs: Shuangfei Zhai, Ruixiang Zhang, Preetum Nakkiran, David Berthelot, Jiatao Gu, Huangjie Zheng, Tianrong Chen, Miguel Angel Bautista, Navdeep Jaitly, Josh Susskind
cs.AI
Samenvatting
Normalizing Flows (NFs) zijn op waarschijnlijkheid gebaseerde modellen voor continue invoergegevens. Ze hebben veelbelovende resultaten laten zien op zowel dichtheidsraming als generatieve modelleringstaken, maar hebben de laatste jaren relatief weinig aandacht gekregen. In dit werk tonen we aan dat NFs krachtiger zijn dan voorheen werd gedacht. We presenteren TarFlow: een eenvoudige en schaalbare architectuur die zeer presterende NF-modellen mogelijk maakt. TarFlow kan worden beschouwd als een op Transformer gebaseerde variant van Masked Autoregressive Flows (MAFs): het bestaat uit een stapel autoregressieve Transformer-blokken op beeldpatches, waarbij de autoregressie-richting tussen lagen wordt afgewisseld. TarFlow is eenvoudig end-to-end te trainen en in staat om pixels direct te modelleren en genereren. We stellen ook drie belangrijke technieken voor om de kwaliteit van de steekproeven te verbeteren: Gaussische ruisaugmentatie tijdens de training, een denoising-procedure na de training, en een effectieve begeleidingsmethode voor zowel klasse-geconditioneerde als ongeconditioneerde instellingen. Door deze te combineren, stelt TarFlow nieuwe state-of-the-art resultaten vast voor waarschijnlijkheidsschattingen van beelden, waarbij de vorige beste methoden ver worden overtroffen, en genereert steekproeven met kwaliteit en diversiteit vergelijkbaar met diffusiemodellen, voor het eerst met een op zichzelf staand NF-model. We stellen onze code beschikbaar op https://github.com/apple/ml-tarflow.
English
Normalizing Flows (NFs) are likelihood-based models for continuous inputs.
They have demonstrated promising results on both density estimation and
generative modeling tasks, but have received relatively little attention in
recent years. In this work, we demonstrate that NFs are more powerful than
previously believed. We present TarFlow: a simple and scalable architecture
that enables highly performant NF models. TarFlow can be thought of as a
Transformer-based variant of Masked Autoregressive Flows (MAFs): it consists of
a stack of autoregressive Transformer blocks on image patches, alternating the
autoregression direction between layers. TarFlow is straightforward to train
end-to-end, and capable of directly modeling and generating pixels. We also
propose three key techniques to improve sample quality: Gaussian noise
augmentation during training, a post training denoising procedure, and an
effective guidance method for both class-conditional and unconditional
settings. Putting these together, TarFlow sets new state-of-the-art results on
likelihood estimation for images, beating the previous best methods by a large
margin, and generates samples with quality and diversity comparable to
diffusion models, for the first time with a stand-alone NF model. We make our
code available at https://github.com/apple/ml-tarflow.Summary
AI-Generated Summary