Обратный ход: улучшение нормализующих потоков через выравнивание обратных представлений
Flowing Backwards: Improving Normalizing Flows via Reverse Representation Alignment
November 27, 2025
Авторы: Yang Chen, Xiaowei Xu, Shuai Wang, Chenhui Zhu, Ruxue Wen, Xubin Li, Tiezheng Ge, Limin Wang
cs.AI
Аннотация
Нормализующие потоки (NF) — это класс генеративных моделей, отличающихся математически инвертируемой архитектурой, при которой прямой проход преобразует данные в латентное пространство для оценки плотности, а обратный проход генерирует новые выборки из этого пространства. Эта особенность создает внутреннюю синергию между обучением представлений и генерацией данных. Однако качество генерации стандартных NF ограничено слабыми семантическими представлениями, обусловленными оптимизацией логарифмического правдоподобия. Для решения этой проблемы мы предлагаем новую стратегию выравнивания, которая творчески использует инвертируемость NF: вместо регуляризации прямого прохода мы выравниваем промежуточные признаки генеративного (обратного) прохода с представлениями мощной базовой модели компьютерного зрения, демонстрируя превосходную эффективность по сравнению с наивным выравниванием. Мы также представляем новую бестренировочную алгоритмическую оптимизацию на этапе тестирования для классификации, которая обеспечивает более внутреннюю оценку семантических знаний, встроенных в NF. Комплексные эксперименты показывают, что наш подход ускоряет обучение NF более чем в 3,3 раза, одновременно обеспечивая значительное улучшение как качества генерации, так и точности классификации. Установлены новые рекордные результаты для NF на ImageNet 64×64 и 256×256. Наш код доступен по адресу https://github.com/MCG-NJU/FlowBack.
English
Normalizing Flows (NFs) are a class of generative models distinguished by a mathematically invertible architecture, where the forward pass transforms data into a latent space for density estimation, and the reverse pass generates new samples from this space. This characteristic creates an intrinsic synergy between representation learning and data generation. However, the generative quality of standard NFs is limited by poor semantic representations from log-likelihood optimization. To remedy this, we propose a novel alignment strategy that creatively leverages the invertibility of NFs: instead of regularizing the forward pass, we align the intermediate features of the generative (reverse) pass with representations from a powerful vision foundation model, demonstrating superior effectiveness over naive alignment. We also introduce a novel training-free, test-time optimization algorithm for classification, which provides a more intrinsic evaluation of the NF's embedded semantic knowledge. Comprehensive experiments demonstrate that our approach accelerates the training of NFs by over 3.3times, while simultaneously delivering significant improvements in both generative quality and classification accuracy. New state-of-the-art results for NFs are established on ImageNet 64times64 and 256times256. Our code is available at https://github.com/MCG-NJU/FlowBack.