Coevoluerende representaties in gezamenlijke beeld-kenmerkdiffusie
Coevolving Representations in Joint Image-Feature Diffusion
April 19, 2026
Auteurs: Theodoros Kouzelis, Spyros Gidaris, Nikos Komodakis
cs.AI
Samenvatting
Gezamenlijke beeld-functie generatieve modellering is recent naar voren gekomen als een effectieve strategie om diffusietraining te verbeteren door low-level VAE-latenten te koppelen aan high-level semantische functies die zijn geëxtraheerd uit vooraf getrainde visuele encoders. Bestaande benaderingen vertrouwen echter op een vaste representatieruimte, die onafhankelijk van het generatieve doel is geconstrueerd en tijdens de training ongewijzigd blijft. Wij beargumenteren dat de representatieruimte die de diffusie begeleidt, zichzelf zou moeten aanpassen aan de generatieve taak. Hiertoe stellen wij Co-evoluerende Representatie Diffusie (CoReDi) voor, een raamwerk waarin de semantische representatieruimte evolueert tijdens de training door het gezamenlijk leren van een lichtgewicht lineaire projectie met het diffusiemodel. Hoewel het naïef optimaliseren van deze projectie leidt tot gedegenereerde oplossingen, tonen wij aan dat stabiele co-evolutie kan worden bereikt door een combinatie van stop-gradient doelen, normalisatie en gerichte regularisatie die functie-instorting voorkomt. Deze formulering stelt de semantische ruimte in staat om zich progressief te specialiseren voor de behoeften van beeld synthese, waardoor de complementariteit met beeldlatenten wordt verbeterd. Wij passen CoReDi toe op zowel VAE-latente diffusie als pixelruimte-diffusie, en demonstreren dat adaptieve semantische representaties de generatieve modellering in beide settings verbeteren. Experimenten tonen aan dat CoReDi een snellere convergentie en een hogere samplekwaliteit bereikt in vergelijking met gezamenlijke diffusiemodellen die opereren in vaste representatieruimten.
English
Joint image-feature generative modeling has recently emerged as an effective strategy for improving diffusion training by coupling low-level VAE latents with high-level semantic features extracted from pre-trained visual encoders. However, existing approaches rely on a fixed representation space, constructed independently of the generative objective and kept unchanged during training. We argue that the representation space guiding diffusion should itself adapt to the generative task. To this end, we propose Coevolving Representation Diffusion (CoReDi), a framework in which the semantic representation space evolves during training by learning a lightweight linear projection jointly with the diffusion model. While naively optimizing this projection leads to degenerate solutions, we show that stable coevolution can be achieved through a combination of stop-gradient targets, normalization, and targeted regularization that prevents feature collapse. This formulation enables the semantic space to progressively specialize to the needs of image synthesis, improving its complementarity with image latents. We apply CoReDi to both VAE latent diffusion and pixel-space diffusion, demonstrating that adaptive semantic representations improve generative modeling across both settings. Experiments show that CoReDi achieves faster convergence and higher sample quality compared to joint diffusion models operating in fixed representation spaces.