ChatPaper.aiChatPaper

潜在表現をグローバルおよびローカルな意味論で正則化する:もつれを解いた拡散モデル

REGLUE Your Latents with Global and Local Semantics for Entangled Diffusion

December 18, 2025
著者: Giorgos Petsangourakis, Christos Sgouropoulos, Bill Psomas, Theodoros Giannakopoulos, Giorgos Sfikas, Ioannis Kakogeorgiou
cs.AI

要旨

潜在拡散モデル(LDM)は画像合成において最先端の性能を達成しているが、その再構成型のノイズ除去目的関数は間接的な意味的監督のみを提供する。高レベルの意味情報は緩やかに出現するため、学習時間が長くなり、サンプル品質が制限される。近年の研究では、視覚基盤モデル(VFM)からの意味情報を、表現アライメントによる外部注入、または拡散過程内でVFM特徴の一部のみを共同モデリングする内部注入によって付与する手法が提案されている。しかし、これらはVFMが提供する豊富な非線形の多層空間意味情報を十分に活用できていない。本研究では、REGLUE(Representation Entanglement with Global-Local Unified Encoding)を提案する。これは、(i) VAE画像潜在変数、(ii) コンパクトな局所(パッチレベル)VFM意味情報、(iii) 大域(画像レベル)[CLS]トークンを、単一のSiTバックボーン内で共同モデリングする統合型潜在拡散フレームワークである。軽量な畳み込みセマンティックコンプレッサーが多層VFM特徴を非線形に集約し、低次元で空間構造を持つ表現を生成する。この表現は拡散過程においてVAE潜在変数と絡み合う。さらに、外部アライメント損失が内部表現を凍結されたVFM目標に向けて正則化する。ImageNet 256x256において、REGLUEはSiT-B/2およびSiT-XL/2ベースライン、ならびにREPA、ReDi、REGを一貫して上回るFID改善と収束加速を実現した。詳細な実験により、(a) 空間的VFM意味情報が重要であること、(b) 非線形圧縮がその効果を最大限に引き出す鍵であること、(c) 大域トークンと外部アライメントが、我々の大域-局所-潜在変数の共同モデリングフレームワーク内で相補的かつ軽量な強化として機能することが示された。コードはhttps://github.com/giorgospets/reglue で公開されている。
English
Latent diffusion models (LDMs) achieve state-of-the-art image synthesis, yet their reconstruction-style denoising objective provides only indirect semantic supervision: high-level semantics emerge slowly, requiring longer training and limiting sample quality. Recent works inject semantics from Vision Foundation Models (VFMs) either externally via representation alignment or internally by jointly modeling only a narrow slice of VFM features inside the diffusion process, under-utilizing the rich, nonlinear, multi-layer spatial semantics available. We introduce REGLUE (Representation Entanglement with Global-Local Unified Encoding), a unified latent diffusion framework that jointly models (i) VAE image latents, (ii) compact local (patch-level) VFM semantics, and (iii) a global (image-level) [CLS] token within a single SiT backbone. A lightweight convolutional semantic compressor nonlinearly aggregates multi-layer VFM features into a low-dimensional, spatially structured representation, which is entangled with the VAE latents in the diffusion process. An external alignment loss further regularizes internal representations toward frozen VFM targets. On ImageNet 256x256, REGLUE consistently improves FID and accelerates convergence over SiT-B/2 and SiT-XL/2 baselines, as well as over REPA, ReDi, and REG. Extensive experiments show that (a) spatial VFM semantics are crucial, (b) non-linear compression is key to unlocking their full benefit, and (c) global tokens and external alignment act as complementary, lightweight enhancements within our global-local-latent joint modeling framework. The code is available at https://github.com/giorgospets/reglue .
PDF192December 20, 2025