Latent Zoning Netwerk: Een Uniform Principe voor Generatieve Modellering, Representatieleren en Classificatie

Samenvatting

Generatieve modellering, representatie leren en classificatie zijn drie kernproblemen in machine learning (ML), maar hun state-of-the-art (SoTA) oplossingen blijven grotendeels gescheiden. In dit artikel vragen we: Kan een verenigd principe alle drie aanpakken? Een dergelijke unificatie zou ML-pipelines kunnen vereenvoudigen en meer synergie tussen taken bevorderen. We introduceren het Latent Zoning Network (LZN) als een stap in deze richting. In de kern creëert LZN een gedeelde Gaussische latente ruimte die informatie codeert voor alle taken. Elk gegevenstype (bijv. afbeeldingen, tekst, labels) is uitgerust met een encoder die samples afbeeldt op gescheiden latente zones, en een decoder die latente waarden terugmapt naar data. ML-taken worden uitgedrukt als composities van deze encoders en decoders: bijvoorbeeld gebruikt label-geconditioneerde afbeeldingsgeneratie een label-encoder en afbeeldingsdecoder; afbeeldingsembedding gebruikt een afbeeldingsencoder; classificatie gebruikt een afbeeldingsencoder en labeldecoder. We demonstreren de belofte van LZN in drie steeds complexere scenario's: (1) LZN kan bestaande modellen verbeteren (afbeeldingsgeneratie): In combinatie met het SoTA Rectified Flow-model verbetert LZN de FID op CIFAR10 van 2.76 naar 2.59—zonder het trainingsdoel aan te passen. (2) LZN kan taken onafhankelijk oplossen (representatie leren): LZN kan onbewaakt representatie leren implementeren zonder hulpfuncties voor verlies, en overtreft de baanbrekende MoCo- en SimCLR-methoden met respectievelijk 9.3% en 0.2% bij downstream lineaire classificatie op ImageNet. (3) LZN kan meerdere taken gelijktijdig oplossen (gezamenlijke generatie en classificatie): Met afbeeldings- en labelencoders/decoders voert LZN beide taken van nature gezamenlijk uit, verbetert de FID en behaalt SoTA-classificatienauwkeurigheid op CIFAR10. De code en getrainde modellen zijn beschikbaar op https://github.com/microsoft/latent-zoning-networks. De projectwebsite is te vinden op https://zinanlin.me/blogs/latent_zoning_networks.html.

English

Generative modeling, representation learning, and classification are three core problems in machine learning (ML), yet their state-of-the-art (SoTA) solutions remain largely disjoint. In this paper, we ask: Can a unified principle address all three? Such unification could simplify ML pipelines and foster greater synergy across tasks. We introduce Latent Zoning Network (LZN) as a step toward this goal. At its core, LZN creates a shared Gaussian latent space that encodes information across all tasks. Each data type (e.g., images, text, labels) is equipped with an encoder that maps samples to disjoint latent zones, and a decoder that maps latents back to data. ML tasks are expressed as compositions of these encoders and decoders: for example, label-conditional image generation uses a label encoder and image decoder; image embedding uses an image encoder; classification uses an image encoder and label decoder. We demonstrate the promise of LZN in three increasingly complex scenarios: (1) LZN can enhance existing models (image generation): When combined with the SoTA Rectified Flow model, LZN improves FID on CIFAR10 from 2.76 to 2.59-without modifying the training objective. (2) LZN can solve tasks independently (representation learning): LZN can implement unsupervised representation learning without auxiliary loss functions, outperforming the seminal MoCo and SimCLR methods by 9.3% and 0.2%, respectively, on downstream linear classification on ImageNet. (3) LZN can solve multiple tasks simultaneously (joint generation and classification): With image and label encoders/decoders, LZN performs both tasks jointly by design, improving FID and achieving SoTA classification accuracy on CIFAR10. The code and trained models are available at https://github.com/microsoft/latent-zoning-networks. The project website is at https://zinanlin.me/blogs/latent_zoning_networks.html.

Latent Zoning Netwerk: Een Uniform Principe voor Generatieve Modellering, Representatieleren en Classificatie

Latent Zoning Network: A Unified Principle for Generative Modeling, Representation Learning, and Classification

Samenvatting

Support