DecQ: Detail-condenserende queries voor verbeterde reconstructie en generatie in representatie-autoencoders

Samenvatting

Representatie-auto-encoders (RAE's) maken gebruik van bevroren visuele funderingsmodellen (VFM's) als tokenizerencoders, die robuuste hoog-niveau representaties leveren die snelle convergentie en hoogwaardige generatie in latente diffusiemodellen mogelijk maken. Het bevriezen van het VFM beperkt echter inherent de ruimtelijke reconstructiecapaciteit, wat de fijnmazige generatie en beeldbewerking limiteert; het integreren van reconstructiegerichte signalen via fine-tuning verstoort daarentegen de voorgetrainde semantische ruimte en vermindert de generatieve getrouwheid. Om deze afweging aan te pakken, stellen we DecQ voor, een eenvoudig maar effectief raamwerk voor RAE's. Specifiek introduceert DecQ lichtgewicht detailcondenserende queries die via condensormodules fijnmazige informatie uit tussentijdse VFM-kenmerken extraheren. Deze queries worden in de decoder opgenomen om reconstructie te ondersteunen en worden tijdens generatieve modellering gezamenlijk gegenereerd met patch-tokens. Door informatie uit zowel ondiepe als diepe lagen te aggregeren, beperkt DecQ effectief de trade-off tussen reconstructie en generatie, wat zowel de reconstructiekwaliteit als de generatieve prestaties verbetert. Onze experimenten tonen aan dat: (1) met slechts 8 extra queries en 3,9% extra rekenkracht, DecQ de reconstructie verbetert ten opzichte van de bevroren op DINOv2 gebaseerde RAE, met een verhoging van de PSNR van 19,13 dB naar 22,76 dB; en (2) voor generatieve modellering bereikt DecQ een 3,3 keer snellere convergentie dan RAE, met een FID van 1,41 zonder sturing en 1,05 met sturing.

English

Representation Autoencoders (RAEs) leverage frozen vision foundation models (VFMs) as tokenizer encoders, providing robust high-level representations that facilitate fast convergence and high-quality generation in latent diffusion models. However, freezing the VFM inherently constrains its spatial reconstruction capacity, limiting fine-grained generation and image editing; in contrast, incorporating reconstruction-oriented signals via fine-tuning disrupts the pretrained semantic space and degrades generative fidelity. To address this trade-off, we propose DecQ, a simple yet effective framework for RAEs. Specifically, DecQ introduces lightweight detail-condensing queries that extract fine-grained information from intermediate VFM features through condenser modules. These queries are incorporated into the decoder to support reconstruction and are jointly generated with patch tokens during generative modeling. By aggregating information from both shallow and deep layers, DecQ effectively mitigates the reconstruction--generation trade-off, improving both reconstruction quality and generative performance. Our experiments demonstrate that: (1) with only 8 additional queries and 3.9% extra computation, DecQ improves reconstruction over the frozen DINOv2-based RAE, increasing PSNR from 19.13 dB to 22.76 dB; and (2) for generative modeling, DecQ achieves 3.3times faster convergence than RAE, attaining an FID of 1.41 without guidance and 1.05 with guidance.