Representaciones Coevolutivas en la Difusión Conjunta de Imágenes y Características

Resumen

La modelización generativa conjunta de imágenes y características ha surgido recientemente como una estrategia efectiva para mejorar el entrenamiento de modelos de difusión, mediante el acoplamiento de latentes de VAE de bajo nivel con características semánticas de alto nivel extraídas de codificadores visuales preentrenados. Sin embargo, los enfoques existentes dependen de un espacio de representación fijo, construido independientemente del objetivo generativo y mantenido inalterado durante el entrenamiento. Sostenemos que el espacio de representación que guía la difusión debería adaptarse a la tarea generativa. Para ello, proponemos Coevolving Representation Diffusion (CoReDi), un marco en el que el espacio de representación semántica evoluciona durante el entrenamiento mediante el aprendizaje de una proyección lineal ligera de forma conjunta con el modelo de difusión. Si bien optimizar esta proyección de manera ingenua conduce a soluciones degeneradas, demostramos que se puede lograr una coevolución estable mediante una combinación de objetivos de parada de gradiente, normalización y regularización dirigida que previene el colapso de características. Esta formulación permite que el espacio semántico se especialice progresivamente para las necesidades de la síntesis de imágenes, mejorando su complementariedad con los latentes de imagen. Aplicamos CoReDi tanto a la difusión de latentes VAE como a la difusión en el espacio de píxeles, demostrando que las representaciones semánticas adaptativas mejoran la modelización generativa en ambos escenarios. Los experimentos muestran que CoReDi logra una convergencia más rápida y una mayor calidad de muestras en comparación con los modelos de difusión conjunta que operan en espacios de representación fijos.

English

Joint image-feature generative modeling has recently emerged as an effective strategy for improving diffusion training by coupling low-level VAE latents with high-level semantic features extracted from pre-trained visual encoders. However, existing approaches rely on a fixed representation space, constructed independently of the generative objective and kept unchanged during training. We argue that the representation space guiding diffusion should itself adapt to the generative task. To this end, we propose Coevolving Representation Diffusion (CoReDi), a framework in which the semantic representation space evolves during training by learning a lightweight linear projection jointly with the diffusion model. While naively optimizing this projection leads to degenerate solutions, we show that stable coevolution can be achieved through a combination of stop-gradient targets, normalization, and targeted regularization that prevents feature collapse. This formulation enables the semantic space to progressively specialize to the needs of image synthesis, improving its complementarity with image latents. We apply CoReDi to both VAE latent diffusion and pixel-space diffusion, demonstrating that adaptive semantic representations improve generative modeling across both settings. Experiments show that CoReDi achieves faster convergence and higher sample quality compared to joint diffusion models operating in fixed representation spaces.

Representaciones Coevolutivas en la Difusión Conjunta de Imágenes y Características

Coevolving Representations in Joint Image-Feature Diffusion

Resumen

Support