Réseau de Zonage Latent : Un Principe Unifié pour la Modélisation Générative, l'Apprentissage de Représentations et la Classification

papers.abstract

La modélisation générative, l'apprentissage de représentation et la classification sont trois problèmes fondamentaux en apprentissage automatique (AA), mais leurs solutions de pointe (SoTA) restent largement disjointes. Dans cet article, nous posons la question suivante : Un principe unifié peut-il aborder ces trois problèmes ? Une telle unification pourrait simplifier les pipelines d’AA et favoriser une plus grande synergie entre les tâches. Nous introduisons le réseau de zonage latent (Latent Zoning Network, LZN) comme une étape vers cet objectif. Au cœur de LZN se trouve la création d’un espace latent gaussien partagé qui encode l’information pour toutes les tâches. Chaque type de données (par exemple, images, texte, étiquettes) est équipé d’un encodeur qui mappe les échantillons vers des zones latentes disjointes, et d’un décodeur qui mappe les latents vers les données. Les tâches d’AA sont exprimées comme des compositions de ces encodeurs et décodeurs : par exemple, la génération d’images conditionnée par des étiquettes utilise un encodeur d’étiquettes et un décodeur d’images ; l’embedding d’images utilise un encodeur d’images ; la classification utilise un encodeur d’images et un décodeur d’étiquettes. Nous démontrons le potentiel de LZN dans trois scénarios de complexité croissante : (1) LZN peut améliorer les modèles existants (génération d’images) : Combiné avec le modèle SoTA Rectified Flow, LZN améliore le FID sur CIFAR10 de 2,76 à 2,59 sans modifier l’objectif d’apprentissage. (2) LZN peut résoudre des tâches de manière indépendante (apprentissage de représentation) : LZN peut implémenter l’apprentissage de représentation non supervisé sans fonctions de perte auxiliaires, surpassant les méthodes pionnières MoCo et SimCLR respectivement de 9,3 % et 0,2 % sur la classification linéaire en aval sur ImageNet. (3) LZN peut résoudre plusieurs tâches simultanément (génération et classification conjointes) : Avec des encodeurs/décodeurs d’images et d’étiquettes, LZN effectue les deux tâches conjointement par conception, améliorant le FID et atteignant une précision de classification SoTA sur CIFAR10. Le code et les modèles entraînés sont disponibles à l’adresse https://github.com/microsoft/latent-zoning-networks. Le site web du projet se trouve à l’adresse https://zinanlin.me/blogs/latent_zoning_networks.html.

English

Generative modeling, representation learning, and classification are three core problems in machine learning (ML), yet their state-of-the-art (SoTA) solutions remain largely disjoint. In this paper, we ask: Can a unified principle address all three? Such unification could simplify ML pipelines and foster greater synergy across tasks. We introduce Latent Zoning Network (LZN) as a step toward this goal. At its core, LZN creates a shared Gaussian latent space that encodes information across all tasks. Each data type (e.g., images, text, labels) is equipped with an encoder that maps samples to disjoint latent zones, and a decoder that maps latents back to data. ML tasks are expressed as compositions of these encoders and decoders: for example, label-conditional image generation uses a label encoder and image decoder; image embedding uses an image encoder; classification uses an image encoder and label decoder. We demonstrate the promise of LZN in three increasingly complex scenarios: (1) LZN can enhance existing models (image generation): When combined with the SoTA Rectified Flow model, LZN improves FID on CIFAR10 from 2.76 to 2.59-without modifying the training objective. (2) LZN can solve tasks independently (representation learning): LZN can implement unsupervised representation learning without auxiliary loss functions, outperforming the seminal MoCo and SimCLR methods by 9.3% and 0.2%, respectively, on downstream linear classification on ImageNet. (3) LZN can solve multiple tasks simultaneously (joint generation and classification): With image and label encoders/decoders, LZN performs both tasks jointly by design, improving FID and achieving SoTA classification accuracy on CIFAR10. The code and trained models are available at https://github.com/microsoft/latent-zoning-networks. The project website is at https://zinanlin.me/blogs/latent_zoning_networks.html.

Réseau de Zonage Latent : Un Principe Unifié pour la Modélisation Générative, l'Apprentissage de Représentations et la Classification

Latent Zoning Network: A Unified Principle for Generative Modeling, Representation Learning, and Classification

papers.abstract

Support