РЕГЛЮЙ свои латентные переменные с глобальной и локальной семантикой для запутанной диффузии
REGLUE Your Latents with Global and Local Semantics for Entangled Diffusion
December 18, 2025
Авторы: Giorgos Petsangourakis, Christos Sgouropoulos, Bill Psomas, Theodoros Giannakopoulos, Giorgos Sfikas, Ioannis Kakogeorgiou
cs.AI
Аннотация
Латентные диффузионные модели (LDM) достигают передовых результатов в синтезе изображений, однако их реконструкционная цель по удалению шума обеспечивает лишь косвенную семантическую супервизию: высокоуровневая семантика возникает медленно, что требует более длительного обучения и ограничивает качество образцов. В последних работах семантика внедряется из Vision Foundation Models (VFM) либо внешне через выравнивание представлений, либо внутренне путем совместного моделирования лишь узкого среза признаков VFM внутри процесса диффузии, что не полностью использует доступную богатую, нелинейную, многоуровневую пространственную семантику. Мы представляем REGLUE (Representation Entanglement with Global-Local Unified Encoding) — унифицированную латентную диффузионную структуру, которая совместно моделирует (i) латентные представления изображений VAE, (ii) компактную локальную (на уровне патчей) семантику VFM и (iii) глобальный (на уровне изображения) токен [CLS] в рамках единого SiT-бэкбона. Легковесный сверточный семантический компрессор нелинейно агрегирует многоуровневые признаки VFM в низкоразмерное пространственно структурированное представление, которое переплетается с латентными переменными VAE в процессе диффузии. Внешняя функция потерь на выравнивание дополнительно регуляризует внутренние представления в сторону замороженных целевых показателей VFM. На данных ImageNet 256x256 REGLUE последовательно улучшает FID и ускоряет сходимость по сравнению с базовыми моделями SiT-B/2 и SiT-XL/2, а также методами REPA, ReDi и REG. Многочисленные эксперименты показывают, что (a) пространственная семантика VFM имеет критическое значение, (b) нелинейное сжатие является ключом к раскрытию их полного потенциала и (c) глобальные токены и внешнее выравнивание выступают в качестве дополнительных, легковесных улучшений в рамках нашей структуры совместного моделирования «глобальное-локальное-латентное». Код доступен по адресу https://github.com/giorgospets/reglue.
English
Latent diffusion models (LDMs) achieve state-of-the-art image synthesis, yet their reconstruction-style denoising objective provides only indirect semantic supervision: high-level semantics emerge slowly, requiring longer training and limiting sample quality. Recent works inject semantics from Vision Foundation Models (VFMs) either externally via representation alignment or internally by jointly modeling only a narrow slice of VFM features inside the diffusion process, under-utilizing the rich, nonlinear, multi-layer spatial semantics available. We introduce REGLUE (Representation Entanglement with Global-Local Unified Encoding), a unified latent diffusion framework that jointly models (i) VAE image latents, (ii) compact local (patch-level) VFM semantics, and (iii) a global (image-level) [CLS] token within a single SiT backbone. A lightweight convolutional semantic compressor nonlinearly aggregates multi-layer VFM features into a low-dimensional, spatially structured representation, which is entangled with the VAE latents in the diffusion process. An external alignment loss further regularizes internal representations toward frozen VFM targets. On ImageNet 256x256, REGLUE consistently improves FID and accelerates convergence over SiT-B/2 and SiT-XL/2 baselines, as well as over REPA, ReDi, and REG. Extensive experiments show that (a) spatial VFM semantics are crucial, (b) non-linear compression is key to unlocking their full benefit, and (c) global tokens and external alignment act as complementary, lightweight enhancements within our global-local-latent joint modeling framework. The code is available at https://github.com/giorgospets/reglue .