Latent Zoning Network: Un Principio Unificato per la Modellazione Generativa, l'Apprendimento di Rappresentazioni e la Classificazione
Latent Zoning Network: A Unified Principle for Generative Modeling, Representation Learning, and Classification
September 19, 2025
Autori: Zinan Lin, Enshu Liu, Xuefei Ning, Junyi Zhu, Wenyu Wang, Sergey Yekhanin
cs.AI
Abstract
La modellazione generativa, l'apprendimento di rappresentazioni e la classificazione sono tre problemi fondamentali nel machine learning (ML), tuttavia le soluzioni state-of-the-art (SoTA) rimangono largamente disgiunte. In questo articolo, ci chiediamo: un principio unificato può affrontare tutti e tre? Tale unificazione potrebbe semplificare le pipeline di ML e favorire una maggiore sinergia tra i compiti. Introduciamo la Latent Zoning Network (LZN) come un passo verso questo obiettivo. Al suo nucleo, LZN crea uno spazio latente gaussiano condiviso che codifica informazioni attraverso tutti i compiti. Ogni tipo di dato (ad esempio, immagini, testo, etichette) è dotato di un encoder che mappa i campioni in zone latenti disgiunte e di un decoder che mappa i latenti di nuovo ai dati. I compiti di ML sono espressi come composizioni di questi encoder e decoder: ad esempio, la generazione condizionata di immagini da etichette utilizza un encoder di etichette e un decoder di immagini; l'embedding di immagini utilizza un encoder di immagini; la classificazione utilizza un encoder di immagini e un decoder di etichette. Dimostriamo il potenziale di LZN in tre scenari di crescente complessità: (1) LZN può migliorare modelli esistenti (generazione di immagini): quando combinato con il modello SoTA Rectified Flow, LZN migliora l'FID su CIFAR10 da 2.76 a 2.59 senza modificare l'obiettivo di addestramento. (2) LZN può risolvere compiti in modo indipendente (apprendimento di rappresentazioni): LZN può implementare l'apprendimento di rappresentazioni non supervisionato senza funzioni di perdita ausiliarie, superando i metodi seminali MoCo e SimCLR rispettivamente del 9.3% e dello 0.2% nella classificazione lineare downstream su ImageNet. (3) LZN può risolvere più compiti simultaneamente (generazione e classificazione congiunte): con encoder/decoder di immagini e etichette, LZN esegue entrambi i compiti congiuntamente per progettazione, migliorando l'FID e raggiungendo l'accuratezza SoTA nella classificazione su CIFAR10. Il codice e i modelli addestrati sono disponibili su https://github.com/microsoft/latent-zoning-networks. Il sito web del progetto è su https://zinanlin.me/blogs/latent_zoning_networks.html.
English
Generative modeling, representation learning, and classification are three
core problems in machine learning (ML), yet their state-of-the-art (SoTA)
solutions remain largely disjoint. In this paper, we ask: Can a unified
principle address all three? Such unification could simplify ML pipelines and
foster greater synergy across tasks. We introduce Latent Zoning Network (LZN)
as a step toward this goal. At its core, LZN creates a shared Gaussian latent
space that encodes information across all tasks. Each data type (e.g., images,
text, labels) is equipped with an encoder that maps samples to disjoint latent
zones, and a decoder that maps latents back to data. ML tasks are expressed as
compositions of these encoders and decoders: for example, label-conditional
image generation uses a label encoder and image decoder; image embedding uses
an image encoder; classification uses an image encoder and label decoder. We
demonstrate the promise of LZN in three increasingly complex scenarios: (1) LZN
can enhance existing models (image generation): When combined with the SoTA
Rectified Flow model, LZN improves FID on CIFAR10 from 2.76 to 2.59-without
modifying the training objective. (2) LZN can solve tasks independently
(representation learning): LZN can implement unsupervised representation
learning without auxiliary loss functions, outperforming the seminal MoCo and
SimCLR methods by 9.3% and 0.2%, respectively, on downstream linear
classification on ImageNet. (3) LZN can solve multiple tasks simultaneously
(joint generation and classification): With image and label encoders/decoders,
LZN performs both tasks jointly by design, improving FID and achieving SoTA
classification accuracy on CIFAR10. The code and trained models are available
at https://github.com/microsoft/latent-zoning-networks. The project website is
at https://zinanlin.me/blogs/latent_zoning_networks.html.