ChatPaper.aiChatPaper

Rede de Zonação Latente: Um Princípio Unificado para Modelagem Generativa, Aprendizado de Representação e Classificação

Latent Zoning Network: A Unified Principle for Generative Modeling, Representation Learning, and Classification

September 19, 2025
Autores: Zinan Lin, Enshu Liu, Xuefei Ning, Junyi Zhu, Wenyu Wang, Sergey Yekhanin
cs.AI

Resumo

Modelagem generativa, aprendizado de representação e classificação são três problemas centrais no aprendizado de máquina (ML), mas suas soluções de ponta (SoTA) permanecem amplamente desconexas. Neste artigo, questionamos: Um princípio unificado pode abordar todos os três? Tal unificação poderia simplificar pipelines de ML e promover maior sinergia entre tarefas. Introduzimos a Rede de Zonas Latentes (Latent Zoning Network - LZN) como um passo em direção a esse objetivo. Em sua essência, a LZN cria um espaço latente Gaussiano compartilhado que codifica informações em todas as tarefas. Cada tipo de dado (por exemplo, imagens, texto, rótulos) é equipado com um codificador que mapeia amostras para zonas latentes disjuntas e um decodificador que mapeia latentes de volta para os dados. As tarefas de ML são expressas como composições desses codificadores e decodificadores: por exemplo, a geração de imagens condicionada por rótulos usa um codificador de rótulos e um decodificador de imagens; a incorporação de imagens usa um codificador de imagens; a classificação usa um codificador de imagens e um decodificador de rótulos. Demonstramos o potencial da LZN em três cenários cada vez mais complexos: (1) A LZN pode aprimorar modelos existentes (geração de imagens): Quando combinada com o modelo de ponta Rectified Flow, a LZN melhora o FID no CIFAR10 de 2,76 para 2,59 - sem modificar o objetivo de treinamento. (2) A LZN pode resolver tarefas de forma independente (aprendizado de representação): A LZN pode implementar aprendizado de representação não supervisionado sem funções de perda auxiliares, superando os métodos seminal MoCo e SimCLR em 9,3% e 0,2%, respectivamente, na classificação linear subsequente no ImageNet. (3) A LZN pode resolver múltiplas tarefas simultaneamente (geração e classificação conjuntas): Com codificadores/decodificadores de imagens e rótulos, a LZN realiza ambas as tarefas conjuntamente por design, melhorando o FID e alcançando a precisão de classificação SoTA no CIFAR10. O código e os modelos treinados estão disponíveis em https://github.com/microsoft/latent-zoning-networks. O site do projeto está em https://zinanlin.me/blogs/latent_zoning_networks.html.
English
Generative modeling, representation learning, and classification are three core problems in machine learning (ML), yet their state-of-the-art (SoTA) solutions remain largely disjoint. In this paper, we ask: Can a unified principle address all three? Such unification could simplify ML pipelines and foster greater synergy across tasks. We introduce Latent Zoning Network (LZN) as a step toward this goal. At its core, LZN creates a shared Gaussian latent space that encodes information across all tasks. Each data type (e.g., images, text, labels) is equipped with an encoder that maps samples to disjoint latent zones, and a decoder that maps latents back to data. ML tasks are expressed as compositions of these encoders and decoders: for example, label-conditional image generation uses a label encoder and image decoder; image embedding uses an image encoder; classification uses an image encoder and label decoder. We demonstrate the promise of LZN in three increasingly complex scenarios: (1) LZN can enhance existing models (image generation): When combined with the SoTA Rectified Flow model, LZN improves FID on CIFAR10 from 2.76 to 2.59-without modifying the training objective. (2) LZN can solve tasks independently (representation learning): LZN can implement unsupervised representation learning without auxiliary loss functions, outperforming the seminal MoCo and SimCLR methods by 9.3% and 0.2%, respectively, on downstream linear classification on ImageNet. (3) LZN can solve multiple tasks simultaneously (joint generation and classification): With image and label encoders/decoders, LZN performs both tasks jointly by design, improving FID and achieving SoTA classification accuracy on CIFAR10. The code and trained models are available at https://github.com/microsoft/latent-zoning-networks. The project website is at https://zinanlin.me/blogs/latent_zoning_networks.html.
PDF455September 22, 2025