REGLUE: Verknüpfen Sie Ihre Latents mit globaler und lokaler Semantik für verschränkte Diffusion
REGLUE Your Latents with Global and Local Semantics for Entangled Diffusion
December 18, 2025
papers.authors: Giorgos Petsangourakis, Christos Sgouropoulos, Bill Psomas, Theodoros Giannakopoulos, Giorgos Sfikas, Ioannis Kakogeorgiou
cs.AI
papers.abstract
Latente Diffusionsmodelle (LDMs) erzielen state-of-the-art Bildsynthese, doch ihr rekonstruktionsbasiertes Denoising-Ziel bietet nur indirekte semantische Überwachung: Hochlevel-Semantik entsteht langsam, erfordert längeres Training und begrenzt die Bildqualität. Neuere Arbeiten injizieren Semantik aus Vision Foundation Models (VFMs) entweder extern durch Repräsentationsalignment oder intern durch gemeinsame Modellierung nur eines schmalen Ausschnitts von VFM-Merkmalen innerhalb des Diffusionsprozesses, wodurch die verfügbare reiche, nichtlineare, mehrschichtige räumliche Semantik unzureichend genutzt wird. Wir stellen REGLUE (Representation Entanglement with Global-Local Unified Encoding) vor, ein vereinheitlichtes latentes Diffusionsframework, das (i) VAE-Bildlatenten, (ii) kompakte lokale (Patch-level) VFM-Semantik und (iii) einen globalen (Bild-level) [CLS]-Token gemeinsam innerhalb eines einzigen SiT-Backbones modelliert. Ein leichter konvolutionaler Semantikkompressor aggregiert nichtlinear mehrschichtige VFM-Merkmale zu einer niedrigdimensionalen, räumlich strukturierten Repräsentation, die mit den VAE-Latenten im Diffusionsprozess verschränkt wird. Ein externer Alignment-Loss regularisiert interne Repräsentationen weiter in Richtung eingefrorener VFM-Ziele. Auf ImageNet 256x256 verbessert REGLUE konsistent den FID und beschleunigt die Konvergenz im Vergleich zu SiT-B/2- und SiT-XL/2-Baselines sowie gegenüber REPA, ReDi und REG. Umfangreiche Experimente zeigen, dass (a) räumliche VFM-Semantik entscheidend ist, (b) nichtlineare Kompression der Schlüssel zur vollen Ausschöpfung ihres Nutzens ist und (c) globale Tokens und externes Alignment komplementäre, leichte Verbesserungen innerhalb unseres Global-Local-Latent-Joint-Modeling-Frameworks darstellen. Der Code ist verfügbar unter https://github.com/giorgospets/reglue.
English
Latent diffusion models (LDMs) achieve state-of-the-art image synthesis, yet their reconstruction-style denoising objective provides only indirect semantic supervision: high-level semantics emerge slowly, requiring longer training and limiting sample quality. Recent works inject semantics from Vision Foundation Models (VFMs) either externally via representation alignment or internally by jointly modeling only a narrow slice of VFM features inside the diffusion process, under-utilizing the rich, nonlinear, multi-layer spatial semantics available. We introduce REGLUE (Representation Entanglement with Global-Local Unified Encoding), a unified latent diffusion framework that jointly models (i) VAE image latents, (ii) compact local (patch-level) VFM semantics, and (iii) a global (image-level) [CLS] token within a single SiT backbone. A lightweight convolutional semantic compressor nonlinearly aggregates multi-layer VFM features into a low-dimensional, spatially structured representation, which is entangled with the VAE latents in the diffusion process. An external alignment loss further regularizes internal representations toward frozen VFM targets. On ImageNet 256x256, REGLUE consistently improves FID and accelerates convergence over SiT-B/2 and SiT-XL/2 baselines, as well as over REPA, ReDi, and REG. Extensive experiments show that (a) spatial VFM semantics are crucial, (b) non-linear compression is key to unlocking their full benefit, and (c) global tokens and external alignment act as complementary, lightweight enhancements within our global-local-latent joint modeling framework. The code is available at https://github.com/giorgospets/reglue .