Réseau de Zonage Latent : Un Principe Unifié pour la Modélisation Générative, l'Apprentissage de Représentations et la Classification
Latent Zoning Network: A Unified Principle for Generative Modeling, Representation Learning, and Classification
September 19, 2025
papers.authors: Zinan Lin, Enshu Liu, Xuefei Ning, Junyi Zhu, Wenyu Wang, Sergey Yekhanin
cs.AI
papers.abstract
La modélisation générative, l'apprentissage de représentation et la classification sont trois problèmes fondamentaux en apprentissage automatique (AA), mais leurs solutions de pointe (SoTA) restent largement disjointes. Dans cet article, nous posons la question suivante : Un principe unifié peut-il aborder ces trois problèmes ? Une telle unification pourrait simplifier les pipelines d’AA et favoriser une plus grande synergie entre les tâches. Nous introduisons le réseau de zonage latent (Latent Zoning Network, LZN) comme une étape vers cet objectif. Au cœur de LZN se trouve la création d’un espace latent gaussien partagé qui encode l’information pour toutes les tâches. Chaque type de données (par exemple, images, texte, étiquettes) est équipé d’un encodeur qui mappe les échantillons vers des zones latentes disjointes, et d’un décodeur qui mappe les latents vers les données. Les tâches d’AA sont exprimées comme des compositions de ces encodeurs et décodeurs : par exemple, la génération d’images conditionnée par des étiquettes utilise un encodeur d’étiquettes et un décodeur d’images ; l’embedding d’images utilise un encodeur d’images ; la classification utilise un encodeur d’images et un décodeur d’étiquettes. Nous démontrons le potentiel de LZN dans trois scénarios de complexité croissante : (1) LZN peut améliorer les modèles existants (génération d’images) : Combiné avec le modèle SoTA Rectified Flow, LZN améliore le FID sur CIFAR10 de 2,76 à 2,59 sans modifier l’objectif d’apprentissage. (2) LZN peut résoudre des tâches de manière indépendante (apprentissage de représentation) : LZN peut implémenter l’apprentissage de représentation non supervisé sans fonctions de perte auxiliaires, surpassant les méthodes pionnières MoCo et SimCLR respectivement de 9,3 % et 0,2 % sur la classification linéaire en aval sur ImageNet. (3) LZN peut résoudre plusieurs tâches simultanément (génération et classification conjointes) : Avec des encodeurs/décodeurs d’images et d’étiquettes, LZN effectue les deux tâches conjointement par conception, améliorant le FID et atteignant une précision de classification SoTA sur CIFAR10. Le code et les modèles entraînés sont disponibles à l’adresse https://github.com/microsoft/latent-zoning-networks. Le site web du projet se trouve à l’adresse https://zinanlin.me/blogs/latent_zoning_networks.html.
English
Generative modeling, representation learning, and classification are three
core problems in machine learning (ML), yet their state-of-the-art (SoTA)
solutions remain largely disjoint. In this paper, we ask: Can a unified
principle address all three? Such unification could simplify ML pipelines and
foster greater synergy across tasks. We introduce Latent Zoning Network (LZN)
as a step toward this goal. At its core, LZN creates a shared Gaussian latent
space that encodes information across all tasks. Each data type (e.g., images,
text, labels) is equipped with an encoder that maps samples to disjoint latent
zones, and a decoder that maps latents back to data. ML tasks are expressed as
compositions of these encoders and decoders: for example, label-conditional
image generation uses a label encoder and image decoder; image embedding uses
an image encoder; classification uses an image encoder and label decoder. We
demonstrate the promise of LZN in three increasingly complex scenarios: (1) LZN
can enhance existing models (image generation): When combined with the SoTA
Rectified Flow model, LZN improves FID on CIFAR10 from 2.76 to 2.59-without
modifying the training objective. (2) LZN can solve tasks independently
(representation learning): LZN can implement unsupervised representation
learning without auxiliary loss functions, outperforming the seminal MoCo and
SimCLR methods by 9.3% and 0.2%, respectively, on downstream linear
classification on ImageNet. (3) LZN can solve multiple tasks simultaneously
(joint generation and classification): With image and label encoders/decoders,
LZN performs both tasks jointly by design, improving FID and achieving SoTA
classification accuracy on CIFAR10. The code and trained models are available
at https://github.com/microsoft/latent-zoning-networks. The project website is
at https://zinanlin.me/blogs/latent_zoning_networks.html.