Modelos de Fluxo Adversários

Resumo

Apresentamos modelos de fluxo adversariais, uma classe de modelos generativos que unifica modelos adversariais e modelos de fluxo. Nosso método suporta geração nativa em uma única etapa ou em múltiplas etapas e é treinado usando o objetivo adversarial. Diferente das GANs tradicionais, onde o gerador aprende um plano de transporte arbitrário entre as distribuições de ruído e de dados, nosso gerador aprende um mapeamento determinístico de ruído para dados, que é o mesmo transporte ótimo encontrado em modelos de fluxo. Isso estabiliza significativamente o treinamento adversarial. Além disso, diferentemente de métodos baseados em consistência, nosso modelo aprende diretamente a geração em uma ou poucas etapas, sem a necessidade de aprender os passos de tempo intermediários do fluxo de probabilidade para propagação. Isso economiza capacidade do modelo, reduz as iterações de treinamento e evita o acúmulo de erros. Sob a mesma configuração de 1NFE no ImageNet-256px, nosso modelo B/2 se aproxima do desempenho dos modelos baseados em consistência XL/2, enquanto nosso modelo XL/2 estabelece um novo recorde de FID de 2.38. Adicionalmente, demonstramos a possibilidade de treinamento end-to-end de modelos de 56 e 112 camadas através de repetição de profundidade, sem qualquer supervisão intermediária, e alcançamos FIDs de 2.08 e 1.94 usando uma única passagem forward, superando suas contrapartes de 2NFE e 4NFE.

English

We present adversarial flow models, a class of generative models that unifies adversarial models and flow models. Our method supports native one-step or multi-step generation and is trained using the adversarial objective. Unlike traditional GANs, where the generator learns an arbitrary transport plan between the noise and the data distributions, our generator learns a deterministic noise-to-data mapping, which is the same optimal transport as in flow-matching models. This significantly stabilizes adversarial training. Also, unlike consistency-based methods, our model directly learns one-step or few-step generation without needing to learn the intermediate timesteps of the probability flow for propagation. This saves model capacity, reduces training iterations, and avoids error accumulation. Under the same 1NFE setting on ImageNet-256px, our B/2 model approaches the performance of consistency-based XL/2 models, while our XL/2 model creates a new best FID of 2.38. We additionally show the possibility of end-to-end training of 56-layer and 112-layer models through depth repetition without any intermediate supervision, and achieve FIDs of 2.08 and 1.94 using a single forward pass, surpassing their 2NFE and 4NFE counterparts.

Modelos de Fluxo Adversários

Adversarial Flow Models

Resumo

Support