Red de Zonificación Latente: Un Principio Unificado para Modelado Generativo, Aprendizaje de Representaciones y Clasificación
Latent Zoning Network: A Unified Principle for Generative Modeling, Representation Learning, and Classification
September 19, 2025
Autores: Zinan Lin, Enshu Liu, Xuefei Ning, Junyi Zhu, Wenyu Wang, Sergey Yekhanin
cs.AI
Resumen
El modelado generativo, el aprendizaje de representaciones y la clasificación son tres problemas fundamentales en el aprendizaje automático (ML, por sus siglas en inglés), sin embargo, las soluciones de vanguardia (SoTA, por sus siglas en inglés) para estos problemas siguen siendo en gran medida independientes. En este artículo, nos preguntamos: ¿Puede un principio unificado abordar los tres? Tal unificación podría simplificar las pipelines de ML y fomentar una mayor sinergia entre tareas. Introducimos la Red de Zonificación Latente (LZN, por sus siglas en inglés) como un paso hacia este objetivo. En esencia, LZN crea un espacio latente gaussiano compartido que codifica información para todas las tareas. Cada tipo de dato (por ejemplo, imágenes, texto, etiquetas) está equipado con un codificador que mapea muestras a zonas latentes disjuntas y un decodificador que mapea los latentes de vuelta a los datos. Las tareas de ML se expresan como composiciones de estos codificadores y decodificadores: por ejemplo, la generación de imágenes condicionadas por etiquetas utiliza un codificador de etiquetas y un decodificador de imágenes; la incrustación de imágenes utiliza un codificador de imágenes; la clasificación utiliza un codificador de imágenes y un decodificador de etiquetas. Demostramos el potencial de LZN en tres escenarios de creciente complejidad: (1) LZN puede mejorar modelos existentes (generación de imágenes): cuando se combina con el modelo de Flujo Rectificado SoTA, LZN mejora el FID en CIFAR10 de 2.76 a 2.59 sin modificar el objetivo de entrenamiento. (2) LZN puede resolver tareas de manera independiente (aprendizaje de representaciones): LZN puede implementar aprendizaje de representaciones no supervisado sin funciones de pérdida auxiliares, superando los métodos seminales MoCo y SimCLR en un 9.3% y 0.2%, respectivamente, en la clasificación lineal descendente en ImageNet. (3) LZN puede resolver múltiples tareas simultáneamente (generación y clasificación conjuntas): con codificadores y decodificadores de imágenes y etiquetas, LZN realiza ambas tareas de manera conjunta por diseño, mejorando el FID y alcanzando la precisión de clasificación SoTA en CIFAR10. El código y los modelos entrenados están disponibles en https://github.com/microsoft/latent-zoning-networks. El sitio web del proyecto se encuentra en https://zinanlin.me/blogs/latent_zoning_networks.html.
English
Generative modeling, representation learning, and classification are three
core problems in machine learning (ML), yet their state-of-the-art (SoTA)
solutions remain largely disjoint. In this paper, we ask: Can a unified
principle address all three? Such unification could simplify ML pipelines and
foster greater synergy across tasks. We introduce Latent Zoning Network (LZN)
as a step toward this goal. At its core, LZN creates a shared Gaussian latent
space that encodes information across all tasks. Each data type (e.g., images,
text, labels) is equipped with an encoder that maps samples to disjoint latent
zones, and a decoder that maps latents back to data. ML tasks are expressed as
compositions of these encoders and decoders: for example, label-conditional
image generation uses a label encoder and image decoder; image embedding uses
an image encoder; classification uses an image encoder and label decoder. We
demonstrate the promise of LZN in three increasingly complex scenarios: (1) LZN
can enhance existing models (image generation): When combined with the SoTA
Rectified Flow model, LZN improves FID on CIFAR10 from 2.76 to 2.59-without
modifying the training objective. (2) LZN can solve tasks independently
(representation learning): LZN can implement unsupervised representation
learning without auxiliary loss functions, outperforming the seminal MoCo and
SimCLR methods by 9.3% and 0.2%, respectively, on downstream linear
classification on ImageNet. (3) LZN can solve multiple tasks simultaneously
(joint generation and classification): With image and label encoders/decoders,
LZN performs both tasks jointly by design, improving FID and achieving SoTA
classification accuracy on CIFAR10. The code and trained models are available
at https://github.com/microsoft/latent-zoning-networks. The project website is
at https://zinanlin.me/blogs/latent_zoning_networks.html.