ChatPaper.aiChatPaper

Normalisierende Flows sind leistungsfähige generative Modelle.

Normalizing Flows are Capable Generative Models

December 9, 2024
Autoren: Shuangfei Zhai, Ruixiang Zhang, Preetum Nakkiran, David Berthelot, Jiatao Gu, Huangjie Zheng, Tianrong Chen, Miguel Angel Bautista, Navdeep Jaitly, Josh Susskind
cs.AI

Zusammenfassung

Normalisierende Flüsse (NFs) sind wahrscheinlichkeitsbasierte Modelle für kontinuierliche Eingaben. Sie haben vielversprechende Ergebnisse sowohl bei der Dichteschätzung als auch bei der generativen Modellierung gezeigt, wurden jedoch in den letzten Jahren relativ wenig beachtet. In dieser Arbeit zeigen wir, dass NFs leistungsstärker sind als bisher angenommen. Wir stellen TarFlow vor: eine einfache und skalierbare Architektur, die hochleistungsfähige NF-Modelle ermöglicht. TarFlow kann als eine auf dem Transformer basierende Variante von Masked Autoregressive Flows (MAFs) betrachtet werden: Es besteht aus einem Stapel von autoregressiven Transformer-Blöcken auf Bildausschnitten, wobei die Autoregressionsrichtung zwischen den Schichten abwechselt. TarFlow ist einfach end-to-end zu trainieren und in der Lage, Pixel direkt zu modellieren und zu generieren. Wir schlagen auch drei Schlüsseltechniken vor, um die Qualität der Stichproben zu verbessern: Gauss'sche Rauschaugmentierung während des Trainings, ein nach dem Training durchgeführtes Denoising-Verfahren und eine effektive Leitmethode für sowohl klassenbedingte als auch bedingungslose Einstellungen. Durch die Kombination dieser Techniken erzielt TarFlow neue state-of-the-art Ergebnisse bei der Wahrscheinlichkeitsschätzung für Bilder, schlägt die bisher besten Methoden deutlich und generiert Stichproben mit Qualität und Vielfalt, die mit Diffusionsmodellen vergleichbar sind, erstmals mit einem eigenständigen NF-Modell. Wir stellen unseren Code unter https://github.com/apple/ml-tarflow zur Verfügung.
English
Normalizing Flows (NFs) are likelihood-based models for continuous inputs. They have demonstrated promising results on both density estimation and generative modeling tasks, but have received relatively little attention in recent years. In this work, we demonstrate that NFs are more powerful than previously believed. We present TarFlow: a simple and scalable architecture that enables highly performant NF models. TarFlow can be thought of as a Transformer-based variant of Masked Autoregressive Flows (MAFs): it consists of a stack of autoregressive Transformer blocks on image patches, alternating the autoregression direction between layers. TarFlow is straightforward to train end-to-end, and capable of directly modeling and generating pixels. We also propose three key techniques to improve sample quality: Gaussian noise augmentation during training, a post training denoising procedure, and an effective guidance method for both class-conditional and unconditional settings. Putting these together, TarFlow sets new state-of-the-art results on likelihood estimation for images, beating the previous best methods by a large margin, and generates samples with quality and diversity comparable to diffusion models, for the first time with a stand-alone NF model. We make our code available at https://github.com/apple/ml-tarflow.

Summary

AI-Generated Summary

PDF92December 13, 2024