ChatPaper.aiChatPaper

REGULA Tus Latentes con Semántica Global y Local para Difusión Enredada

REGLUE Your Latents with Global and Local Semantics for Entangled Diffusion

December 18, 2025
Autores: Giorgos Petsangourakis, Christos Sgouropoulos, Bill Psomas, Theodoros Giannakopoulos, Giorgos Sfikas, Ioannis Kakogeorgiou
cs.AI

Resumen

Los modelos de difusión latente (LDM) logran una síntesis de imágenes de vanguardia, pero su objetivo de eliminación de ruido de estilo reconstructivo proporciona solo una supervisión semántica indirecta: la semántica de alto nivel emerge lentamente, requiere entrenamientos más largos y limita la calidad de las muestras. Trabajos recientes inyectan semántica de Modelos Fundacionales de Visión (VFM) externamente mediante alineación de representaciones o internamente modelando conjuntamente solo un segmento estrecho de características VFM dentro del proceso de difusión, subutilizando la rica, no lineal y multi-capa semántica espacial disponible. Introducimos REGLUE (Entrelazamiento de Representaciones con Codificación Unificada Global-Local), un marco unificado de difusión latente que modela conjuntamente (i) latentes de imagen VAE, (ii) semántica VFM local compacta (a nivel de parche) y (iii) un token global [CLS] (a nivel de imagen) dentro de una única arquitectura SiT. Un compresor semántico convolucional ligero agrega no linealmente características VFM multicapa en una representación espacialmente estructurada y de baja dimensión, que se entrelaza con los latentes VAE en el proceso de difusión. Una pérdida de alineación externa regulariza adicionalmente las representaciones internas hacia objetivos VFM congelados. En ImageNet 256x256, REGLUE mejora consistentemente el FID y acelera la convergencia respecto a las líneas base SiT-B/2 y SiT-XL/2, así como sobre REPA, ReDi y REG. Experimentos exhaustivos muestran que (a) la semántica espacial VFM es crucial, (b) la compresión no lineal es clave para desbloquear su beneficio completo, y (c) los tokens globales y la alineación externa actúan como mejoras complementarias y ligeras dentro de nuestro marco de modelado conjunto global-local-latente. El código está disponible en https://github.com/giorgospets/reglue.
English
Latent diffusion models (LDMs) achieve state-of-the-art image synthesis, yet their reconstruction-style denoising objective provides only indirect semantic supervision: high-level semantics emerge slowly, requiring longer training and limiting sample quality. Recent works inject semantics from Vision Foundation Models (VFMs) either externally via representation alignment or internally by jointly modeling only a narrow slice of VFM features inside the diffusion process, under-utilizing the rich, nonlinear, multi-layer spatial semantics available. We introduce REGLUE (Representation Entanglement with Global-Local Unified Encoding), a unified latent diffusion framework that jointly models (i) VAE image latents, (ii) compact local (patch-level) VFM semantics, and (iii) a global (image-level) [CLS] token within a single SiT backbone. A lightweight convolutional semantic compressor nonlinearly aggregates multi-layer VFM features into a low-dimensional, spatially structured representation, which is entangled with the VAE latents in the diffusion process. An external alignment loss further regularizes internal representations toward frozen VFM targets. On ImageNet 256x256, REGLUE consistently improves FID and accelerates convergence over SiT-B/2 and SiT-XL/2 baselines, as well as over REPA, ReDi, and REG. Extensive experiments show that (a) spatial VFM semantics are crucial, (b) non-linear compression is key to unlocking their full benefit, and (c) global tokens and external alignment act as complementary, lightweight enhancements within our global-local-latent joint modeling framework. The code is available at https://github.com/giorgospets/reglue .
PDF192December 20, 2025