RÉGLEZ Vos Latents avec des Sémantiques Globales et Locales pour une Diffusion Désentrelacée
REGLUE Your Latents with Global and Local Semantics for Entangled Diffusion
December 18, 2025
papers.authors: Giorgos Petsangourakis, Christos Sgouropoulos, Bill Psomas, Theodoros Giannakopoulos, Giorgos Sfikas, Ioannis Kakogeorgiou
cs.AI
papers.abstract
Les modèles de diffusion latente (LDM) atteignent l'état de l'art en synthèse d'images, mais leur objectif de débruitage de type reconstruction ne fournit qu'une supervision sémantique indirecte : la sémantique de haut niveau émerge lentement, nécessitant un entraînement plus long et limitant la qualité des échantillons. Des travaux récents injectent la sémantique des modèles de fondation vision (VFM) soit extérieurement via un alignement des représentations, soit intérieurement en modélisant conjointement seulement une fraction étroite des caractéristiques des VFM au sein du processus de diffusion, sous-utilisant la sémantique spatiale riche, non linéaire et multicouche disponible. Nous présentons REGLUE (Representation Entanglement with Global-Local Unified Encoding), un framework de diffusion latente unifié qui modélise conjointement (i) les latents d'image VAE, (ii) la sémantique VFM locale compacte (au niveau des patchs), et (iii) un token global [CLS] (au niveau de l'image) au sein d'un unique backbone SiT. Un compresseur sémantique convolutionnel léger agrège non linéairement les caractéristiques multicouches des VFM en une représentation de faible dimension et structure spatiale, qui est intriquée avec les latents VAE dans le processus de diffusion. Une loss d'alignement externe régularise en outre les représentations internes vers des cibles VFM gelées. Sur ImageNet 256x256, REGLUE améliore constamment le FID et accélère la convergence par rapport aux baselines SiT-B/2 et SiT-XL/2, ainsi que par rapport à REPA, ReDi et REG. Des expériences approfondies montrent que (a) la sémantique spatiale des VFM est cruciale, (b) la compression non linéaire est essentielle pour en tirer pleinement profit, et (c) les tokens globaux et l'alignement externe agissent comme des améliorations légères et complémentaires au sein de notre framework de modélisation conjointe global-local-latent. Le code est disponible à l'adresse https://github.com/giorgospets/reglue.
English
Latent diffusion models (LDMs) achieve state-of-the-art image synthesis, yet their reconstruction-style denoising objective provides only indirect semantic supervision: high-level semantics emerge slowly, requiring longer training and limiting sample quality. Recent works inject semantics from Vision Foundation Models (VFMs) either externally via representation alignment or internally by jointly modeling only a narrow slice of VFM features inside the diffusion process, under-utilizing the rich, nonlinear, multi-layer spatial semantics available. We introduce REGLUE (Representation Entanglement with Global-Local Unified Encoding), a unified latent diffusion framework that jointly models (i) VAE image latents, (ii) compact local (patch-level) VFM semantics, and (iii) a global (image-level) [CLS] token within a single SiT backbone. A lightweight convolutional semantic compressor nonlinearly aggregates multi-layer VFM features into a low-dimensional, spatially structured representation, which is entangled with the VAE latents in the diffusion process. An external alignment loss further regularizes internal representations toward frozen VFM targets. On ImageNet 256x256, REGLUE consistently improves FID and accelerates convergence over SiT-B/2 and SiT-XL/2 baselines, as well as over REPA, ReDi, and REG. Extensive experiments show that (a) spatial VFM semantics are crucial, (b) non-linear compression is key to unlocking their full benefit, and (c) global tokens and external alignment act as complementary, lightweight enhancements within our global-local-latent joint modeling framework. The code is available at https://github.com/giorgospets/reglue .