ChatPaper.aiChatPaper

Latent Zoning Network: Ein einheitliches Prinzip für generative Modellierung, Repräsentationslernen und Klassifikation

Latent Zoning Network: A Unified Principle for Generative Modeling, Representation Learning, and Classification

September 19, 2025
papers.authors: Zinan Lin, Enshu Liu, Xuefei Ning, Junyi Zhu, Wenyu Wang, Sergey Yekhanin
cs.AI

papers.abstract

Generatives Modellieren, Repräsentationslernen und Klassifikation sind drei Kernprobleme im Bereich des maschinellen Lernens (ML), doch ihre State-of-the-Art (SoTA)-Lösungen bleiben weitgehend getrennt. In diesem Artikel stellen wir die Frage: Kann ein einheitliches Prinzip alle drei adressieren? Eine solche Vereinheitlichung könnte ML-Pipelines vereinfachen und eine größere Synergie zwischen den Aufgaben fördern. Wir stellen das Latent Zoning Network (LZN) als einen Schritt in Richtung dieses Ziels vor. Im Kern schafft LZN einen gemeinsamen Gaußschen latenten Raum, der Informationen über alle Aufgaben hinweg kodiert. Jeder Datentyp (z. B. Bilder, Text, Labels) ist mit einem Encoder ausgestattet, der Proben auf disjunkte latente Zonen abbildet, und einem Decoder, der latente Zustände zurück in Daten umwandelt. ML-Aufgaben werden als Kompositionen dieser Encoder und Decoder ausgedrückt: Zum Beispiel verwendet die label-bedingte Bildgenerierung einen Label-Encoder und einen Bild-Decoder; das Einbetten von Bildern verwendet einen Bild-Encoder; die Klassifikation verwendet einen Bild-Encoder und einen Label-Decoder. Wir demonstrieren das Potenzial von LZN in drei zunehmend komplexen Szenarien: (1) LZN kann bestehende Modelle verbessern (Bildgenerierung): In Kombination mit dem SoTA Rectified Flow-Modell verbessert LZN den FID auf CIFAR10 von 2,76 auf 2,59 – ohne das Trainingsziel zu modifizieren. (2) LZN kann Aufgaben unabhängig lösen (Repräsentationslernen): LZN kann unüberwachtes Repräsentationslernen ohne zusätzliche Verlustfunktionen implementieren und übertrifft die bahnbrechenden MoCo- und SimCLR-Methoden um 9,3 % bzw. 0,2 % bei der nachgelagerten linearen Klassifikation auf ImageNet. (3) LZN kann mehrere Aufgaben gleichzeitig lösen (gemeinsame Generierung und Klassifikation): Mit Bild- und Label-Encodern/Decodern führt LZN beide Aufgaben von Natur aus gemeinsam aus, verbessert den FID und erreicht SoTA-Klassifikationsgenauigkeit auf CIFAR10. Der Code und die trainierten Modelle sind unter https://github.com/microsoft/latent-zoning-networks verfügbar. Die Projektwebsite befindet sich unter https://zinanlin.me/blogs/latent_zoning_networks.html.
English
Generative modeling, representation learning, and classification are three core problems in machine learning (ML), yet their state-of-the-art (SoTA) solutions remain largely disjoint. In this paper, we ask: Can a unified principle address all three? Such unification could simplify ML pipelines and foster greater synergy across tasks. We introduce Latent Zoning Network (LZN) as a step toward this goal. At its core, LZN creates a shared Gaussian latent space that encodes information across all tasks. Each data type (e.g., images, text, labels) is equipped with an encoder that maps samples to disjoint latent zones, and a decoder that maps latents back to data. ML tasks are expressed as compositions of these encoders and decoders: for example, label-conditional image generation uses a label encoder and image decoder; image embedding uses an image encoder; classification uses an image encoder and label decoder. We demonstrate the promise of LZN in three increasingly complex scenarios: (1) LZN can enhance existing models (image generation): When combined with the SoTA Rectified Flow model, LZN improves FID on CIFAR10 from 2.76 to 2.59-without modifying the training objective. (2) LZN can solve tasks independently (representation learning): LZN can implement unsupervised representation learning without auxiliary loss functions, outperforming the seminal MoCo and SimCLR methods by 9.3% and 0.2%, respectively, on downstream linear classification on ImageNet. (3) LZN can solve multiple tasks simultaneously (joint generation and classification): With image and label encoders/decoders, LZN performs both tasks jointly by design, improving FID and achieving SoTA classification accuracy on CIFAR10. The code and trained models are available at https://github.com/microsoft/latent-zoning-networks. The project website is at https://zinanlin.me/blogs/latent_zoning_networks.html.
PDF445September 22, 2025