Latent Zoning Network: Ein einheitliches Prinzip für generative Modellierung, Repräsentationslernen und Klassifikation
Latent Zoning Network: A Unified Principle for Generative Modeling, Representation Learning, and Classification
September 19, 2025
papers.authors: Zinan Lin, Enshu Liu, Xuefei Ning, Junyi Zhu, Wenyu Wang, Sergey Yekhanin
cs.AI
papers.abstract
Generatives Modellieren, Repräsentationslernen und Klassifikation sind drei Kernprobleme im Bereich des maschinellen Lernens (ML), doch ihre State-of-the-Art (SoTA)-Lösungen bleiben weitgehend getrennt. In diesem Artikel stellen wir die Frage: Kann ein einheitliches Prinzip alle drei adressieren? Eine solche Vereinheitlichung könnte ML-Pipelines vereinfachen und eine größere Synergie zwischen den Aufgaben fördern. Wir stellen das Latent Zoning Network (LZN) als einen Schritt in Richtung dieses Ziels vor. Im Kern schafft LZN einen gemeinsamen Gaußschen latenten Raum, der Informationen über alle Aufgaben hinweg kodiert. Jeder Datentyp (z. B. Bilder, Text, Labels) ist mit einem Encoder ausgestattet, der Proben auf disjunkte latente Zonen abbildet, und einem Decoder, der latente Zustände zurück in Daten umwandelt. ML-Aufgaben werden als Kompositionen dieser Encoder und Decoder ausgedrückt: Zum Beispiel verwendet die label-bedingte Bildgenerierung einen Label-Encoder und einen Bild-Decoder; das Einbetten von Bildern verwendet einen Bild-Encoder; die Klassifikation verwendet einen Bild-Encoder und einen Label-Decoder. Wir demonstrieren das Potenzial von LZN in drei zunehmend komplexen Szenarien: (1) LZN kann bestehende Modelle verbessern (Bildgenerierung): In Kombination mit dem SoTA Rectified Flow-Modell verbessert LZN den FID auf CIFAR10 von 2,76 auf 2,59 – ohne das Trainingsziel zu modifizieren. (2) LZN kann Aufgaben unabhängig lösen (Repräsentationslernen): LZN kann unüberwachtes Repräsentationslernen ohne zusätzliche Verlustfunktionen implementieren und übertrifft die bahnbrechenden MoCo- und SimCLR-Methoden um 9,3 % bzw. 0,2 % bei der nachgelagerten linearen Klassifikation auf ImageNet. (3) LZN kann mehrere Aufgaben gleichzeitig lösen (gemeinsame Generierung und Klassifikation): Mit Bild- und Label-Encodern/Decodern führt LZN beide Aufgaben von Natur aus gemeinsam aus, verbessert den FID und erreicht SoTA-Klassifikationsgenauigkeit auf CIFAR10. Der Code und die trainierten Modelle sind unter https://github.com/microsoft/latent-zoning-networks verfügbar. Die Projektwebsite befindet sich unter https://zinanlin.me/blogs/latent_zoning_networks.html.
English
Generative modeling, representation learning, and classification are three
core problems in machine learning (ML), yet their state-of-the-art (SoTA)
solutions remain largely disjoint. In this paper, we ask: Can a unified
principle address all three? Such unification could simplify ML pipelines and
foster greater synergy across tasks. We introduce Latent Zoning Network (LZN)
as a step toward this goal. At its core, LZN creates a shared Gaussian latent
space that encodes information across all tasks. Each data type (e.g., images,
text, labels) is equipped with an encoder that maps samples to disjoint latent
zones, and a decoder that maps latents back to data. ML tasks are expressed as
compositions of these encoders and decoders: for example, label-conditional
image generation uses a label encoder and image decoder; image embedding uses
an image encoder; classification uses an image encoder and label decoder. We
demonstrate the promise of LZN in three increasingly complex scenarios: (1) LZN
can enhance existing models (image generation): When combined with the SoTA
Rectified Flow model, LZN improves FID on CIFAR10 from 2.76 to 2.59-without
modifying the training objective. (2) LZN can solve tasks independently
(representation learning): LZN can implement unsupervised representation
learning without auxiliary loss functions, outperforming the seminal MoCo and
SimCLR methods by 9.3% and 0.2%, respectively, on downstream linear
classification on ImageNet. (3) LZN can solve multiple tasks simultaneously
(joint generation and classification): With image and label encoders/decoders,
LZN performs both tasks jointly by design, improving FID and achieving SoTA
classification accuracy on CIFAR10. The code and trained models are available
at https://github.com/microsoft/latent-zoning-networks. The project website is
at https://zinanlin.me/blogs/latent_zoning_networks.html.