ChatPaper.aiChatPaper

Normaliserende stromen zijn capabele generatieve modellen.

Normalizing Flows are Capable Generative Models

December 9, 2024
Auteurs: Shuangfei Zhai, Ruixiang Zhang, Preetum Nakkiran, David Berthelot, Jiatao Gu, Huangjie Zheng, Tianrong Chen, Miguel Angel Bautista, Navdeep Jaitly, Josh Susskind
cs.AI

Samenvatting

Normalizing Flows (NFs) zijn op waarschijnlijkheid gebaseerde modellen voor continue invoergegevens. Ze hebben veelbelovende resultaten laten zien op zowel dichtheidsraming als generatieve modelleringstaken, maar hebben de laatste jaren relatief weinig aandacht gekregen. In dit werk tonen we aan dat NFs krachtiger zijn dan voorheen werd gedacht. We presenteren TarFlow: een eenvoudige en schaalbare architectuur die zeer presterende NF-modellen mogelijk maakt. TarFlow kan worden beschouwd als een op Transformer gebaseerde variant van Masked Autoregressive Flows (MAFs): het bestaat uit een stapel autoregressieve Transformer-blokken op beeldpatches, waarbij de autoregressie-richting tussen lagen wordt afgewisseld. TarFlow is eenvoudig end-to-end te trainen en in staat om pixels direct te modelleren en genereren. We stellen ook drie belangrijke technieken voor om de kwaliteit van de steekproeven te verbeteren: Gaussische ruisaugmentatie tijdens de training, een denoising-procedure na de training, en een effectieve begeleidingsmethode voor zowel klasse-geconditioneerde als ongeconditioneerde instellingen. Door deze te combineren, stelt TarFlow nieuwe state-of-the-art resultaten vast voor waarschijnlijkheidsschattingen van beelden, waarbij de vorige beste methoden ver worden overtroffen, en genereert steekproeven met kwaliteit en diversiteit vergelijkbaar met diffusiemodellen, voor het eerst met een op zichzelf staand NF-model. We stellen onze code beschikbaar op https://github.com/apple/ml-tarflow.
English
Normalizing Flows (NFs) are likelihood-based models for continuous inputs. They have demonstrated promising results on both density estimation and generative modeling tasks, but have received relatively little attention in recent years. In this work, we demonstrate that NFs are more powerful than previously believed. We present TarFlow: a simple and scalable architecture that enables highly performant NF models. TarFlow can be thought of as a Transformer-based variant of Masked Autoregressive Flows (MAFs): it consists of a stack of autoregressive Transformer blocks on image patches, alternating the autoregression direction between layers. TarFlow is straightforward to train end-to-end, and capable of directly modeling and generating pixels. We also propose three key techniques to improve sample quality: Gaussian noise augmentation during training, a post training denoising procedure, and an effective guidance method for both class-conditional and unconditional settings. Putting these together, TarFlow sets new state-of-the-art results on likelihood estimation for images, beating the previous best methods by a large margin, and generates samples with quality and diversity comparable to diffusion models, for the first time with a stand-alone NF model. We make our code available at https://github.com/apple/ml-tarflow.

Summary

AI-Generated Summary

PDF92December 13, 2024