逆流:逆表現アライメントによる正規化フローの改善
Flowing Backwards: Improving Normalizing Flows via Reverse Representation Alignment
November 27, 2025
著者: Yang Chen, Xiaowei Xu, Shuai Wang, Chenhui Zhu, Ruxue Wen, Xubin Li, Tiezheng Ge, Limin Wang
cs.AI
要旨
Normalizing Flows(NFs)は、数学的に可逆なアーキテクチャを特徴とする生成モデルの一種であり、順方向変換ではデータを潜在空間に写像して密度推定を行い、逆方向変換ではこの空間から新たなサンプルを生成する。この特性により、表現学習とデータ生成の間に本質的な相乗効果が生まれる。しかし、従来のNFsの生成品質は、対数尤度最適化から得られる意味表現の貧弱さによって制限されている。この問題を解決するため、我々はNFsの可逆性を創造的に活用した新たなアライメント戦略を提案する。順方向変換を正則化する代わりに、生成(逆方向)過程の中間特徴を強力な視覚基盤モデルからの表現と整合させることで、単純なアライメント手法を上回る有効性を実証する。さらに、分類タスクにおいて訓練を必要としない新規のテスト時最適化アルゴリズムを導入し、NFに埋め込まれた意味知識のより本質的な評価を可能にする。大規模な実験により、本手法がNFsの訓練速度を3.3倍以上高速化すると同時に、生成品質と分類精度の両方で顕著な改善をもたらすことを実証した。ImageNet 64×64および256×256において、NFsの新たなstate-of-the-artを達成する。コードはhttps://github.com/MCG-NJU/FlowBack で公開されている。
English
Normalizing Flows (NFs) are a class of generative models distinguished by a mathematically invertible architecture, where the forward pass transforms data into a latent space for density estimation, and the reverse pass generates new samples from this space. This characteristic creates an intrinsic synergy between representation learning and data generation. However, the generative quality of standard NFs is limited by poor semantic representations from log-likelihood optimization. To remedy this, we propose a novel alignment strategy that creatively leverages the invertibility of NFs: instead of regularizing the forward pass, we align the intermediate features of the generative (reverse) pass with representations from a powerful vision foundation model, demonstrating superior effectiveness over naive alignment. We also introduce a novel training-free, test-time optimization algorithm for classification, which provides a more intrinsic evaluation of the NF's embedded semantic knowledge. Comprehensive experiments demonstrate that our approach accelerates the training of NFs by over 3.3times, while simultaneously delivering significant improvements in both generative quality and classification accuracy. New state-of-the-art results for NFs are established on ImageNet 64times64 and 256times256. Our code is available at https://github.com/MCG-NJU/FlowBack.