Fluxo Reverso: Melhorando Fluxos de Normalização via Alinhamento de Representação Inversa

Resumo

Os Fluxos Normalizadores (NFs) são uma classe de modelos generativos distinguidos por uma arquitetura matematicamente invertível, na qual a passagem direta transforma dados em um espaço latente para estimativa de densidade, e a passagem reversa gera novas amostras a partir deste espaço. Esta característica cria uma sinergia intrínseca entre a aprendizagem de representação e a geração de dados. No entanto, a qualidade generativa dos NFs padrão é limitada por representações semânticas inadequadas provenientes da otimização de verossimilhança. Para remediar isso, propomos uma nova estratégia de alinhamento que aproveita criativamente a invertibilidade dos NFs: em vez de regularizar a passagem direta, alinhamos as características intermediárias da passagem generativa (reversa) com representações de um modelo de base de visão poderoso, demonstrando uma eficácia superior em comparação com o alinhamento ingênuo. Também introduzimos um novo algoritmo de otimização para classificação, livre de treinamento e aplicado durante o teste, que fornece uma avaliação mais intrínseca do conhecimento semântico incorporado no NF. Experimentos abrangentes demonstram que nossa abordagem acelera o treinamento dos NFs em mais de 3,3 vezes, ao mesmo tempo que proporciona melhorias significativas tanto na qualidade generativa quanto na precisão da classificação. Novos resultados state-of-the-art para NFs foram estabelecidos no ImageNet 64x64 e 256x256. Nosso código está disponível em https://github.com/MCG-NJU/FlowBack.

English

Normalizing Flows (NFs) are a class of generative models distinguished by a mathematically invertible architecture, where the forward pass transforms data into a latent space for density estimation, and the reverse pass generates new samples from this space. This characteristic creates an intrinsic synergy between representation learning and data generation. However, the generative quality of standard NFs is limited by poor semantic representations from log-likelihood optimization. To remedy this, we propose a novel alignment strategy that creatively leverages the invertibility of NFs: instead of regularizing the forward pass, we align the intermediate features of the generative (reverse) pass with representations from a powerful vision foundation model, demonstrating superior effectiveness over naive alignment. We also introduce a novel training-free, test-time optimization algorithm for classification, which provides a more intrinsic evaluation of the NF's embedded semantic knowledge. Comprehensive experiments demonstrate that our approach accelerates the training of NFs by over 3.3times, while simultaneously delivering significant improvements in both generative quality and classification accuracy. New state-of-the-art results for NFs are established on ImageNet 64times64 and 256times256. Our code is available at https://github.com/MCG-NJU/FlowBack.

Fluxo Reverso: Melhorando Fluxos de Normalização via Alinhamento de Representação Inversa

Flowing Backwards: Improving Normalizing Flows via Reverse Representation Alignment

Resumo

Support