Latent Zoning Netwerk: Een Uniform Principe voor Generatieve Modellering, Representatieleren en Classificatie
Latent Zoning Network: A Unified Principle for Generative Modeling, Representation Learning, and Classification
September 19, 2025
Auteurs: Zinan Lin, Enshu Liu, Xuefei Ning, Junyi Zhu, Wenyu Wang, Sergey Yekhanin
cs.AI
Samenvatting
Generatieve modellering, representatie leren en classificatie zijn drie kernproblemen in machine learning (ML), maar hun state-of-the-art (SoTA) oplossingen blijven grotendeels gescheiden. In dit artikel vragen we: Kan een verenigd principe alle drie aanpakken? Een dergelijke unificatie zou ML-pipelines kunnen vereenvoudigen en meer synergie tussen taken bevorderen. We introduceren het Latent Zoning Network (LZN) als een stap in deze richting. In de kern creëert LZN een gedeelde Gaussische latente ruimte die informatie codeert voor alle taken. Elk gegevenstype (bijv. afbeeldingen, tekst, labels) is uitgerust met een encoder die samples afbeeldt op gescheiden latente zones, en een decoder die latente waarden terugmapt naar data. ML-taken worden uitgedrukt als composities van deze encoders en decoders: bijvoorbeeld gebruikt label-geconditioneerde afbeeldingsgeneratie een label-encoder en afbeeldingsdecoder; afbeeldingsembedding gebruikt een afbeeldingsencoder; classificatie gebruikt een afbeeldingsencoder en labeldecoder. We demonstreren de belofte van LZN in drie steeds complexere scenario's: (1) LZN kan bestaande modellen verbeteren (afbeeldingsgeneratie): In combinatie met het SoTA Rectified Flow-model verbetert LZN de FID op CIFAR10 van 2.76 naar 2.59—zonder het trainingsdoel aan te passen. (2) LZN kan taken onafhankelijk oplossen (representatie leren): LZN kan onbewaakt representatie leren implementeren zonder hulpfuncties voor verlies, en overtreft de baanbrekende MoCo- en SimCLR-methoden met respectievelijk 9.3% en 0.2% bij downstream lineaire classificatie op ImageNet. (3) LZN kan meerdere taken gelijktijdig oplossen (gezamenlijke generatie en classificatie): Met afbeeldings- en labelencoders/decoders voert LZN beide taken van nature gezamenlijk uit, verbetert de FID en behaalt SoTA-classificatienauwkeurigheid op CIFAR10. De code en getrainde modellen zijn beschikbaar op https://github.com/microsoft/latent-zoning-networks. De projectwebsite is te vinden op https://zinanlin.me/blogs/latent_zoning_networks.html.
English
Generative modeling, representation learning, and classification are three
core problems in machine learning (ML), yet their state-of-the-art (SoTA)
solutions remain largely disjoint. In this paper, we ask: Can a unified
principle address all three? Such unification could simplify ML pipelines and
foster greater synergy across tasks. We introduce Latent Zoning Network (LZN)
as a step toward this goal. At its core, LZN creates a shared Gaussian latent
space that encodes information across all tasks. Each data type (e.g., images,
text, labels) is equipped with an encoder that maps samples to disjoint latent
zones, and a decoder that maps latents back to data. ML tasks are expressed as
compositions of these encoders and decoders: for example, label-conditional
image generation uses a label encoder and image decoder; image embedding uses
an image encoder; classification uses an image encoder and label decoder. We
demonstrate the promise of LZN in three increasingly complex scenarios: (1) LZN
can enhance existing models (image generation): When combined with the SoTA
Rectified Flow model, LZN improves FID on CIFAR10 from 2.76 to 2.59-without
modifying the training objective. (2) LZN can solve tasks independently
(representation learning): LZN can implement unsupervised representation
learning without auxiliary loss functions, outperforming the seminal MoCo and
SimCLR methods by 9.3% and 0.2%, respectively, on downstream linear
classification on ImageNet. (3) LZN can solve multiple tasks simultaneously
(joint generation and classification): With image and label encoders/decoders,
LZN performs both tasks jointly by design, improving FID and achieving SoTA
classification accuracy on CIFAR10. The code and trained models are available
at https://github.com/microsoft/latent-zoning-networks. The project website is
at https://zinanlin.me/blogs/latent_zoning_networks.html.