Scorrere all'Indietro: Migliorare i Flussi Normalizzanti tramite Allineamento Inverso della Rappresentazione
Flowing Backwards: Improving Normalizing Flows via Reverse Representation Alignment
November 27, 2025
Autori: Yang Chen, Xiaowei Xu, Shuai Wang, Chenhui Zhu, Ruxue Wen, Xubin Li, Tiezheng Ge, Limin Wang
cs.AI
Abstract
I Normalizing Flow (NF) sono una classe di modelli generativi caratterizzati da un'architettura matematicamente invertibile, in cui il passaggio in avanti trasforma i dati in uno spazio latente per la stima della densità, mentre il passaggio inverso genera nuovi campioni da questo spazio. Questa caratteristica crea una sinergia intrinseca tra l'apprendimento di rappresentazioni e la generazione di dati. Tuttavia, la qualità generativa degli NF standard è limitata dalle scarse rappresentazioni semantiche derivanti dall'ottimizzazione della log-verosimiglianza. Per rimediare a ciò, proponiamo una nuova strategia di allineamento che sfrutta creativamente l'invertibilità degli NF: invece di regolarizzare il passaggio in avanti, allineiamo le caratteristiche intermedie del passaggio generativo (inverso) con le rappresentazioni di un potente modello base di visione, dimostrando un'efficacia superiore rispetto a un allineamento ingenuo. Introduciamo inoltre un nuovo algoritmo di ottimizzazione per la classificazione, esente da addestramento e operante al momento del test, che fornisce una valutazione più intrinseca della conoscenza semantica incorporata nell'NF. Esperimenti completi dimostrano che il nostro approccio accelera l'addestramento degli NF di oltre 3,3 volte, fornendo al contempo miglioramenti significativi sia nella qualità generativa che nell'accuratezza della classificazione. Sono stati stabiliti nuovi risultati state-of-the-art per gli NF su ImageNet 64x64 e 256x256. Il nostro codice è disponibile all'indirizzo https://github.com/MCG-NJU/FlowBack.
English
Normalizing Flows (NFs) are a class of generative models distinguished by a mathematically invertible architecture, where the forward pass transforms data into a latent space for density estimation, and the reverse pass generates new samples from this space. This characteristic creates an intrinsic synergy between representation learning and data generation. However, the generative quality of standard NFs is limited by poor semantic representations from log-likelihood optimization. To remedy this, we propose a novel alignment strategy that creatively leverages the invertibility of NFs: instead of regularizing the forward pass, we align the intermediate features of the generative (reverse) pass with representations from a powerful vision foundation model, demonstrating superior effectiveness over naive alignment. We also introduce a novel training-free, test-time optimization algorithm for classification, which provides a more intrinsic evaluation of the NF's embedded semantic knowledge. Comprehensive experiments demonstrate that our approach accelerates the training of NFs by over 3.3times, while simultaneously delivering significant improvements in both generative quality and classification accuracy. New state-of-the-art results for NFs are established on ImageNet 64times64 and 256times256. Our code is available at https://github.com/MCG-NJU/FlowBack.