**REGLUE: 전역 및 지역 의미 정보를 활용한 잠재 공간 얽힘 확산 모델**
REGLUE Your Latents with Global and Local Semantics for Entangled Diffusion
December 18, 2025
저자: Giorgos Petsangourakis, Christos Sgouropoulos, Bill Psomas, Theodoros Giannakopoulos, Giorgos Sfikas, Ioannis Kakogeorgiou
cs.AI
초록
잠재 디퓨전 모델(LDM)은 최첨단 이미지 합성 성능을 달성하지만, 재구성 방식의 노이즈 제거 목표는 간접적인 의미론적 지도만 제공합니다: 높은 수준의 의미론은 느리게 나타나 더 긴 학습 시간을 필요로 하며 샘플 품질을 제한합니다. 최근 연구들은 비전 기초 모델(VFM)의 의미론을 외부적으로 표현 정렬을 통해 주입하거나, 내부적으로 디퓨전 과정 내에서 VFM 특징의 좁은 일부만을 공동 모델링하여 활용 가능한 풍부한 비선형 다중 계층 공간 의미론을 충분히 활용하지 못하고 있습니다. 우리는 단일 SiT 백본 내에서 (i) VAE 이미지 잠재공간, (ii) 압축된 지역적(패치 수준) VFM 의미론, (iii) 전역적(이미지 수준) [CLS] 토큰을 공동으로 모델링하는 통합 잠재 디퓨전 프레임워크인 REGLUE(Representation Entanglement with Global-Local Unified Encoding)를 소개합니다. 경량 컨볼루션 의미론 압축기가 다중 계층 VFM 특징을 비선형적으로 저차원의 공간 구조化된 표현으로 집계하며, 이는 디퓨전 과정에서 VAE 잠재공간과 얽힙니다. 외부 정렬 손실은 내부 표현을 고정된 VFM 목표에 더욱 규제합니다. ImageNet 256x256에서 REGLUE는 SiT-B/2 및 SiT-XL/2 기준 모델과 REPA, ReDi, REG 대비 FID를 지속적으로 개선하고 수렴 속도를 가속화합니다. 광범위한 실험을 통해 (a) 공간 VFM 의미론이 중요하며, (b) 비선형 압축이 그 전체 이점을 실현하는 핵심이며, (c) 전역 토큰과 외부 정렬이 우리의 전역-지역-잠재 공동 모델링 프레임워크 내에서 상호 보완적인 경량 향상으로 작용함을 보여줍니다. 코드는 https://github.com/giorgospets/reglue 에서 이용 가능합니다.
English
Latent diffusion models (LDMs) achieve state-of-the-art image synthesis, yet their reconstruction-style denoising objective provides only indirect semantic supervision: high-level semantics emerge slowly, requiring longer training and limiting sample quality. Recent works inject semantics from Vision Foundation Models (VFMs) either externally via representation alignment or internally by jointly modeling only a narrow slice of VFM features inside the diffusion process, under-utilizing the rich, nonlinear, multi-layer spatial semantics available. We introduce REGLUE (Representation Entanglement with Global-Local Unified Encoding), a unified latent diffusion framework that jointly models (i) VAE image latents, (ii) compact local (patch-level) VFM semantics, and (iii) a global (image-level) [CLS] token within a single SiT backbone. A lightweight convolutional semantic compressor nonlinearly aggregates multi-layer VFM features into a low-dimensional, spatially structured representation, which is entangled with the VAE latents in the diffusion process. An external alignment loss further regularizes internal representations toward frozen VFM targets. On ImageNet 256x256, REGLUE consistently improves FID and accelerates convergence over SiT-B/2 and SiT-XL/2 baselines, as well as over REPA, ReDi, and REG. Extensive experiments show that (a) spatial VFM semantics are crucial, (b) non-linear compression is key to unlocking their full benefit, and (c) global tokens and external alignment act as complementary, lightweight enhancements within our global-local-latent joint modeling framework. The code is available at https://github.com/giorgospets/reglue .