**REGLUE: Regularização de Seus _Latents_ com Semânticas Globais e Locais para Difusão Emaranhada**

Resumo

Os modelos de difusão latente (LDM) alcançam a síntese de imagens de última geração, porém seu objetivo de eliminação de ruído de estilo reconstrução fornece apenas supervisão semântica indireta: a semântica de alto nível emerge lentamente, exigindo treinamento mais longo e limitando a qualidade da amostra. Trabalhos recentes injetam semântica de Modelos de Base de Visão (VFMs) externamente via alinhamento de representação ou internamente modelando conjuntamente apenas uma fatia estreita de características VFM dentro do processo de difusão, subutilizando a rica, não linear e multicamada semântica espacial disponível. Introduzimos REGLUE (Representation Entanglement with Global-Local Unified Encoding), um framework unificado de difusão latente que modela conjuntamente (i) latentes de imagem VAE, (ii) semântica VFM local compacta (nível de patch) e (iii) um token global [CLS] (nível de imagem) dentro de uma única backbone SiT. Um compressor semântico convolucional leve agrega não linearmente características VFM multicamada em uma representação espacialmente estruturada de baixa dimensão, que é entrelaçada com os latentes VAE no processo de difusão. Uma perda de alinhamento externo regulariza ainda mais as representações internas em direção a alvos VFM congelados. No ImageNet 256x256, o REGLUE melhora consistentemente o FID e acelera a convergência em relação às baselines SiT-B/2 e SiT-XL/2, bem como em relação a REPA, ReDi e REG. Experimentos extensivos mostram que (a) a semântica espacial VFM é crucial, (b) a compressão não linear é fundamental para liberar seu benefício total, e (c) tokens globais e alinhamento externo atuam como aprimoramentos leves e complementares dentro de nossa estrutura de modelagem conjunta global-local-latente. O código está disponível em https://github.com/giorgospets/reglue.

English

Latent diffusion models (LDMs) achieve state-of-the-art image synthesis, yet their reconstruction-style denoising objective provides only indirect semantic supervision: high-level semantics emerge slowly, requiring longer training and limiting sample quality. Recent works inject semantics from Vision Foundation Models (VFMs) either externally via representation alignment or internally by jointly modeling only a narrow slice of VFM features inside the diffusion process, under-utilizing the rich, nonlinear, multi-layer spatial semantics available. We introduce REGLUE (Representation Entanglement with Global-Local Unified Encoding), a unified latent diffusion framework that jointly models (i) VAE image latents, (ii) compact local (patch-level) VFM semantics, and (iii) a global (image-level) [CLS] token within a single SiT backbone. A lightweight convolutional semantic compressor nonlinearly aggregates multi-layer VFM features into a low-dimensional, spatially structured representation, which is entangled with the VAE latents in the diffusion process. An external alignment loss further regularizes internal representations toward frozen VFM targets. On ImageNet 256x256, REGLUE consistently improves FID and accelerates convergence over SiT-B/2 and SiT-XL/2 baselines, as well as over REPA, ReDi, and REG. Extensive experiments show that (a) spatial VFM semantics are crucial, (b) non-linear compression is key to unlocking their full benefit, and (c) global tokens and external alignment act as complementary, lightweight enhancements within our global-local-latent joint modeling framework. The code is available at https://github.com/giorgospets/reglue .