Retour en arrière : Améliorer les flots normalisés via l'alignement des représentations inverses
Flowing Backwards: Improving Normalizing Flows via Reverse Representation Alignment
November 27, 2025
papers.authors: Yang Chen, Xiaowei Xu, Shuai Wang, Chenhui Zhu, Ruxue Wen, Xubin Li, Tiezheng Ge, Limin Wang
cs.AI
papers.abstract
Les Flots de Normalisation (NFs) sont une classe de modèles génératifs caractérisés par une architecture mathématiquement inversible, où la passe avant transforme les données en un espace latent pour l'estimation de densité, et la passe arrière génère de nouveaux échantillons à partir de cet espace. Cette caractéristique crée une synergie intrinsèque entre l'apprentissage de représentations et la génération de données. Cependant, la qualité générative des NFs standards est limitée par de faibles représentations sémantiques issues de l'optimisation de vraisemblance logarithmique. Pour y remédier, nous proposons une nouvelle stratégie d'alignement qui exploite créativement l'inversibilité des NFs : au lieu de régulariser la passe avant, nous alignons les caractéristiques intermédiaires de la passe générative (arrière) avec les représentations d'un modèle de fondation visuel puissant, démontrant une efficacité supérieure à un alignement naïf. Nous introduisons également un nouvel algorithme d'optimisation à l'inférence, sans apprentissage supplémentaire, pour la classification, qui fournit une évaluation plus intrinsèque des connaissances sémantiques encodées dans le NF. Des expériences complètes démontrent que notre approche accélère l'entraînement des NFs par plus de 3,3 fois, tout en apportant des améliorations significatives tant en qualité générative qu'en précision classification. De nouveaux résultats state-of-the-art pour les NFs sont établis sur ImageNet 64×64 et 256×256. Notre code est disponible à l'adresse https://github.com/MCG-NJU/FlowBack.
English
Normalizing Flows (NFs) are a class of generative models distinguished by a mathematically invertible architecture, where the forward pass transforms data into a latent space for density estimation, and the reverse pass generates new samples from this space. This characteristic creates an intrinsic synergy between representation learning and data generation. However, the generative quality of standard NFs is limited by poor semantic representations from log-likelihood optimization. To remedy this, we propose a novel alignment strategy that creatively leverages the invertibility of NFs: instead of regularizing the forward pass, we align the intermediate features of the generative (reverse) pass with representations from a powerful vision foundation model, demonstrating superior effectiveness over naive alignment. We also introduce a novel training-free, test-time optimization algorithm for classification, which provides a more intrinsic evaluation of the NF's embedded semantic knowledge. Comprehensive experiments demonstrate that our approach accelerates the training of NFs by over 3.3times, while simultaneously delivering significant improvements in both generative quality and classification accuracy. New state-of-the-art results for NFs are established on ImageNet 64times64 and 256times256. Our code is available at https://github.com/MCG-NJU/FlowBack.