REGOLA i tuoi Latenti con Semantica Globale e Locale per Diffusione Aggrovigliata
REGLUE Your Latents with Global and Local Semantics for Entangled Diffusion
December 18, 2025
Autori: Giorgos Petsangourakis, Christos Sgouropoulos, Bill Psomas, Theodoros Giannakopoulos, Giorgos Sfikas, Ioannis Kakogeorgiou
cs.AI
Abstract
I modelli di diffusione latente (LDM) raggiungono performance all'avanguardia nella sintesi di immagini, tuttavia il loro obiettivo di denoising in stile ricostruttivo fornisce una supervisione semantica solo indiretta: la semantica di alto livello emerge lentamente, richiedendo addestramenti più lunghi e limitando la qualità del campione. Lavori recenti iniettano semantica da Modelli Fondazionali Visivi (VFM) esternamente tramite allineamento delle rappresentazioni o internamente modellando congiuntamente solo una porzione ristretta di feature VFM all'interno del processo di diffusione, sfruttando in modo insufficiente la ricca, non lineare e multi-livello semantica spaziale disponibile. Introduciamo REGLUE (Representation Entanglement with Global-Local Unified Encoding), un framework unificato di diffusione latente che modella congiuntamente (i) i latenti immagine del VAE, (ii) una semantica VFM locale compatta (a livello di patch) e (iii) un token globale [CLS] (a livello di immagine) all'interno di un singolo backbone SiT. Un compressore semantico convoluzionale leggero aggrega in modo non lineare feature VFM multi-livello in una rappresentazione a bassa dimensionalità e strutturata spazialmente, che viene intrecciata con i latenti VAE nel processo di diffusione. Una loss di allineamento esterno regolarizza ulteriormente le rappresentazioni interne verso target VFM congelati. Su ImageNet 256x256, REGLUE migliora consistentemente l'FID e accelera la convergenza rispetto ai baseline SiT-B/2 e SiT-XL/2, nonché rispetto a REPA, ReDi e REG. Esperimenti estensivi mostrano che (a) la semantica spaziale dei VFM è cruciale, (b) la compressione non lineare è la chiave per sbloccarne il pieno beneficio, e (c) i token globali e l'allineamento esterno agiscono come potenziamenti complementari e leggeri all'interno del nostro framework di modellazione congiunta globale-locale-latente. Il codice è disponibile all'indirizzo https://github.com/giorgospets/reglue .
English
Latent diffusion models (LDMs) achieve state-of-the-art image synthesis, yet their reconstruction-style denoising objective provides only indirect semantic supervision: high-level semantics emerge slowly, requiring longer training and limiting sample quality. Recent works inject semantics from Vision Foundation Models (VFMs) either externally via representation alignment or internally by jointly modeling only a narrow slice of VFM features inside the diffusion process, under-utilizing the rich, nonlinear, multi-layer spatial semantics available. We introduce REGLUE (Representation Entanglement with Global-Local Unified Encoding), a unified latent diffusion framework that jointly models (i) VAE image latents, (ii) compact local (patch-level) VFM semantics, and (iii) a global (image-level) [CLS] token within a single SiT backbone. A lightweight convolutional semantic compressor nonlinearly aggregates multi-layer VFM features into a low-dimensional, spatially structured representation, which is entangled with the VAE latents in the diffusion process. An external alignment loss further regularizes internal representations toward frozen VFM targets. On ImageNet 256x256, REGLUE consistently improves FID and accelerates convergence over SiT-B/2 and SiT-XL/2 baselines, as well as over REPA, ReDi, and REG. Extensive experiments show that (a) spatial VFM semantics are crucial, (b) non-linear compression is key to unlocking their full benefit, and (c) global tokens and external alignment act as complementary, lightweight enhancements within our global-local-latent joint modeling framework. The code is available at https://github.com/giorgospets/reglue .