DecQ: Consultas de Condensación de Detalles para Reconstrucción y Generación Mejoradas en Autoencoders de Representación

Resumen

Los Autoencoders de Representación (RAEs) aprovechan modelos de visión fundacionales congelados (VFMs) como codificadores tokenizadores, proporcionando representaciones robustas de alto nivel que facilitan una convergencia rápida y una generación de alta calidad en modelos de difusión latente. Sin embargo, congelar el VFM limita inherentemente su capacidad de reconstrucción espacial, restringiendo la generación detallada y la edición de imágenes; en contraste, incorporar señales orientadas a la reconstrucción mediante ajuste fino altera el espacio semántico preentrenado y degrada la fidelidad generativa. Para abordar este compromiso, proponemos DecQ, un marco simple pero efectivo para RAEs. Específicamente, DecQ introduce consultas ligeras de condensación de detalles que extraen información detallada de las características intermedias del VFM a través de módulos condensadores. Estas consultas se incorporan al decodificador para apoyar la reconstrucción y se generan conjuntamente con los tokens de parche durante el modelado generativo. Al agregar información de capas tanto superficiales como profundas, DecQ mitiga efectivamente el compromiso entre reconstrucción y generación, mejorando tanto la calidad de reconstrucción como el rendimiento generativo. Nuestros experimentos demuestran que: (1) con solo 8 consultas adicionales y un 3.9% de cómputo extra, DecQ mejora la reconstrucción respecto al RAE basado en DINOv2 congelado, incrementando el PSNR de 19.13 dB a 22.76 dB; y (2) para el modelado generativo, DecQ logra una convergencia 3.3 veces más rápida que RAE, alcanzando un FID de 1.41 sin guía y 1.05 con guía.

English

Representation Autoencoders (RAEs) leverage frozen vision foundation models (VFMs) as tokenizer encoders, providing robust high-level representations that facilitate fast convergence and high-quality generation in latent diffusion models. However, freezing the VFM inherently constrains its spatial reconstruction capacity, limiting fine-grained generation and image editing; in contrast, incorporating reconstruction-oriented signals via fine-tuning disrupts the pretrained semantic space and degrades generative fidelity. To address this trade-off, we propose DecQ, a simple yet effective framework for RAEs. Specifically, DecQ introduces lightweight detail-condensing queries that extract fine-grained information from intermediate VFM features through condenser modules. These queries are incorporated into the decoder to support reconstruction and are jointly generated with patch tokens during generative modeling. By aggregating information from both shallow and deep layers, DecQ effectively mitigates the reconstruction--generation trade-off, improving both reconstruction quality and generative performance. Our experiments demonstrate that: (1) with only 8 additional queries and 3.9% extra computation, DecQ improves reconstruction over the frozen DINOv2-based RAE, increasing PSNR from 19.13 dB to 22.76 dB; and (2) for generative modeling, DecQ achieves 3.3times faster convergence than RAE, attaining an FID of 1.41 without guidance and 1.05 with guidance.