DecQ : Requêtes condensant les détails pour une reconstruction et une génération améliorées dans les auto-encodeurs de représentation

Résumé

Les autoencodeurs de représentation (RAE) exploitent des modèles de base de vision figés (VFM) comme encodeurs de tokenisation, fournissant des représentations robustes de haut niveau qui favorisent une convergence rapide et une génération de haute qualité dans les modèles de diffusion latente. Cependant, le gel du VFM contraint intrinsèquement sa capacité de reconstruction spatiale, limitant la génération fine et l'édition d'images ; inversement, l'intégration de signaux orientés reconstruction via un réglage fin perturbe l'espace sémantique pré-entraîné et dégrade la fidélité générative. Pour résoudre ce compromis, nous proposons DecQ, un cadre simple mais efficace pour les RAE. Plus précisément, DecQ introduit des requêtes légères de condensation de détails qui extraient des informations fines des caractéristiques intermédiaires du VFM via des modules condenseurs. Ces requêtes sont intégrées dans le décodeur pour soutenir la reconstruction et sont générées conjointement avec les jetons de patch lors de la modélisation générative. En agrégeant les informations des couches superficielles et profondes, DecQ atténue efficacement le compromis reconstruction-génération, améliorant à la fois la qualité de reconstruction et la performance générative. Nos expériences démontrent que : (1) avec seulement 8 requêtes supplémentaires et 3,9 % de calcul additionnel, DecQ améliore la reconstruction par rapport au RAE basé sur DINOv2 figé, augmentant le PSNR de 19,13 dB à 22,76 dB ; et (2) pour la modélisation générative, DecQ atteint une convergence 3,3 fois plus rapide que le RAE, obtenant un FID de 1,41 sans guidage et de 1,05 avec guidage.

English

Representation Autoencoders (RAEs) leverage frozen vision foundation models (VFMs) as tokenizer encoders, providing robust high-level representations that facilitate fast convergence and high-quality generation in latent diffusion models. However, freezing the VFM inherently constrains its spatial reconstruction capacity, limiting fine-grained generation and image editing; in contrast, incorporating reconstruction-oriented signals via fine-tuning disrupts the pretrained semantic space and degrades generative fidelity. To address this trade-off, we propose DecQ, a simple yet effective framework for RAEs. Specifically, DecQ introduces lightweight detail-condensing queries that extract fine-grained information from intermediate VFM features through condenser modules. These queries are incorporated into the decoder to support reconstruction and are jointly generated with patch tokens during generative modeling. By aggregating information from both shallow and deep layers, DecQ effectively mitigates the reconstruction--generation trade-off, improving both reconstruction quality and generative performance. Our experiments demonstrate that: (1) with only 8 additional queries and 3.9% extra computation, DecQ improves reconstruction over the frozen DINOv2-based RAE, increasing PSNR from 19.13 dB to 22.76 dB; and (2) for generative modeling, DecQ achieves 3.3times faster convergence than RAE, attaining an FID of 1.41 without guidance and 1.05 with guidance.