Rappresentazioni coevolutive nella diffusione congiunta di immagini e caratteristiche

Abstract

La modellazione generativa congiunta immagine-caratteristiche è recentemente emersa come strategia efficace per migliorare l'addestramento di modelli diffusion accoppiando latenti VAE di basso livello con caratteristiche semantiche di alto livello estratte da encoder visivi pre-addestrati. Tuttavia, gli approcci esistenti si basano su uno spazio di rappresentazione fisso, costruito indipendentemente dall'obiettivo generativo e mantenuto invariato durante l'addestramento. Sosteniamo che lo spazio di rappresentazione che guida il processo diffusion debba a sua volta adattarsi al compito generativo. A tal fine, proponiamo Coevolving Representation Diffusion (CoReDi), un framework in cui lo spazio di rappresentazione semantica evolve durante l'addestramento apprendendo una proiezione lineare leggera congiuntamente al modello diffusion. Sebbene l'ottimizzazione ingenua di questa proiezione porti a soluzioni degenerate, dimostriamo che una coevoluzione stabile può essere ottenuta attraverso una combinazione di target stop-gradient, normalizzazione e regolarizzazione mirata che previene il collasso delle caratteristiche. Questa formulazione consente allo spazio semantico di specializzarsi progressivamente per le esigenze della sintesi d'immagine, migliorandone la complementarità con i latenti immagine. Applichiamo CoReDi sia alla diffusione su latenti VAE che alla diffusione in spazio-pixel, dimostrando che rappresentazioni semantiche adattive migliorano la modellazione generativa in entrambi gli scenari. Gli esperimenti mostrano che CoReDi raggiunge una convergenza più rapida e una qualità del campione superiore rispetto ai modelli diffusion congiunti che operano in spazi di rappresentazione fissi.

English

Joint image-feature generative modeling has recently emerged as an effective strategy for improving diffusion training by coupling low-level VAE latents with high-level semantic features extracted from pre-trained visual encoders. However, existing approaches rely on a fixed representation space, constructed independently of the generative objective and kept unchanged during training. We argue that the representation space guiding diffusion should itself adapt to the generative task. To this end, we propose Coevolving Representation Diffusion (CoReDi), a framework in which the semantic representation space evolves during training by learning a lightweight linear projection jointly with the diffusion model. While naively optimizing this projection leads to degenerate solutions, we show that stable coevolution can be achieved through a combination of stop-gradient targets, normalization, and targeted regularization that prevents feature collapse. This formulation enables the semantic space to progressively specialize to the needs of image synthesis, improving its complementarity with image latents. We apply CoReDi to both VAE latent diffusion and pixel-space diffusion, demonstrating that adaptive semantic representations improve generative modeling across both settings. Experiments show that CoReDi achieves faster convergence and higher sample quality compared to joint diffusion models operating in fixed representation spaces.

Rappresentazioni coevolutive nella diffusione congiunta di immagini e caratteristiche

Coevolving Representations in Joint Image-Feature Diffusion

Abstract

Support