Cocréation de représentations dans la diffusion conjointe image-caractéristiques

Résumé

La modélisation générative conjointe image-caractéristiques a récemment émergé comme une stratégie efficace pour améliorer l'entraînement par diffusion en couplant les latents bas niveau d'un VAE avec les caractéristiques sémantiques haut niveau extraites par des encodeurs visuels pré-entraînés. Cependant, les approches existantes reposent sur un espace de représentation fixe, construit indépendamment de l'objectif génératif et maintenu inchangé pendant l'entraînement. Nous soutenons que l'espace de représentation guidant la diffusion devrait lui-même s'adapter à la tâche générative. À cette fin, nous proposons Coevolving Representation Diffusion (CoReDi), un cadre dans lequel l'espace de représentation sémantique évolue durant l'entraînement en apprenant une projection linéaire légère conjointement avec le modèle de diffusion. Bien qu'une optimisation naïve de cette projection conduise à des solutions dégénérées, nous montrons qu'une coévolution stable peut être atteinte grâce à une combinaison de cibles à gradient arrêté, de normalisation et de régularisation ciblée empêchant l'effondrement des caractéristiques. Cette formulation permet à l'espace sémantique de se spécialiser progressivement pour répondre aux besoins de la synthèse d'images, améliorant sa complémentarité avec les latents image. Nous appliquons CoReDi à la fois à la diffusion sur latents VAE et à la diffusion dans l'espace des pixels, démontrant que les représentations sémantiques adaptatives améliorent la modélisation générative dans les deux configurations. Les expériences montrent que CoReDi atteint une convergence plus rapide et une qualité d'échantillon supérieure par rapport aux modèles de diffusion conjoints opérant dans des espaces de représentation fixes.

English

Joint image-feature generative modeling has recently emerged as an effective strategy for improving diffusion training by coupling low-level VAE latents with high-level semantic features extracted from pre-trained visual encoders. However, existing approaches rely on a fixed representation space, constructed independently of the generative objective and kept unchanged during training. We argue that the representation space guiding diffusion should itself adapt to the generative task. To this end, we propose Coevolving Representation Diffusion (CoReDi), a framework in which the semantic representation space evolves during training by learning a lightweight linear projection jointly with the diffusion model. While naively optimizing this projection leads to degenerate solutions, we show that stable coevolution can be achieved through a combination of stop-gradient targets, normalization, and targeted regularization that prevents feature collapse. This formulation enables the semantic space to progressively specialize to the needs of image synthesis, improving its complementarity with image latents. We apply CoReDi to both VAE latent diffusion and pixel-space diffusion, demonstrating that adaptive semantic representations improve generative modeling across both settings. Experiments show that CoReDi achieves faster convergence and higher sample quality compared to joint diffusion models operating in fixed representation spaces.

Cocréation de représentations dans la diffusion conjointe image-caractéristiques

Coevolving Representations in Joint Image-Feature Diffusion

Résumé

Support