Normalisierende Flows sind leistungsfähige generative Modelle.
Normalizing Flows are Capable Generative Models
December 9, 2024
Autoren: Shuangfei Zhai, Ruixiang Zhang, Preetum Nakkiran, David Berthelot, Jiatao Gu, Huangjie Zheng, Tianrong Chen, Miguel Angel Bautista, Navdeep Jaitly, Josh Susskind
cs.AI
Zusammenfassung
Normalisierende Flüsse (NFs) sind wahrscheinlichkeitsbasierte Modelle für kontinuierliche Eingaben. Sie haben vielversprechende Ergebnisse sowohl bei der Dichteschätzung als auch bei der generativen Modellierung gezeigt, wurden jedoch in den letzten Jahren relativ wenig beachtet. In dieser Arbeit zeigen wir, dass NFs leistungsstärker sind als bisher angenommen. Wir stellen TarFlow vor: eine einfache und skalierbare Architektur, die hochleistungsfähige NF-Modelle ermöglicht. TarFlow kann als eine auf dem Transformer basierende Variante von Masked Autoregressive Flows (MAFs) betrachtet werden: Es besteht aus einem Stapel von autoregressiven Transformer-Blöcken auf Bildausschnitten, wobei die Autoregressionsrichtung zwischen den Schichten abwechselt. TarFlow ist einfach end-to-end zu trainieren und in der Lage, Pixel direkt zu modellieren und zu generieren. Wir schlagen auch drei Schlüsseltechniken vor, um die Qualität der Stichproben zu verbessern: Gauss'sche Rauschaugmentierung während des Trainings, ein nach dem Training durchgeführtes Denoising-Verfahren und eine effektive Leitmethode für sowohl klassenbedingte als auch bedingungslose Einstellungen. Durch die Kombination dieser Techniken erzielt TarFlow neue state-of-the-art Ergebnisse bei der Wahrscheinlichkeitsschätzung für Bilder, schlägt die bisher besten Methoden deutlich und generiert Stichproben mit Qualität und Vielfalt, die mit Diffusionsmodellen vergleichbar sind, erstmals mit einem eigenständigen NF-Modell. Wir stellen unseren Code unter https://github.com/apple/ml-tarflow zur Verfügung.
English
Normalizing Flows (NFs) are likelihood-based models for continuous inputs.
They have demonstrated promising results on both density estimation and
generative modeling tasks, but have received relatively little attention in
recent years. In this work, we demonstrate that NFs are more powerful than
previously believed. We present TarFlow: a simple and scalable architecture
that enables highly performant NF models. TarFlow can be thought of as a
Transformer-based variant of Masked Autoregressive Flows (MAFs): it consists of
a stack of autoregressive Transformer blocks on image patches, alternating the
autoregression direction between layers. TarFlow is straightforward to train
end-to-end, and capable of directly modeling and generating pixels. We also
propose three key techniques to improve sample quality: Gaussian noise
augmentation during training, a post training denoising procedure, and an
effective guidance method for both class-conditional and unconditional
settings. Putting these together, TarFlow sets new state-of-the-art results on
likelihood estimation for images, beating the previous best methods by a large
margin, and generates samples with quality and diversity comparable to
diffusion models, for the first time with a stand-alone NF model. We make our
code available at https://github.com/apple/ml-tarflow.Summary
AI-Generated Summary