DecQ: Consultas de Condensação de Detalhes para Reconstrução e Geração Aprimoradas em Autoencoders de Representação

Resumo

Autoencoders de Representação (RAEs) utilizam modelos de base de visão (VFMs) congelados como codificadores tokenizadores, fornecendo representações robustas de alto nível que facilitam a convergência rápida e a geração de alta qualidade em modelos de difusão latente. No entanto, congelar o VFM restringe inerentemente sua capacidade de reconstrução espacial, limitando a geração refinada e a edição de imagens; por outro lado, incorporar sinais orientados à reconstrução por meio de ajuste fino interrompe o espaço semântico pré-treinado e degrada a fidelidade generativa. Para lidar com essa troca, propomos DecQ, uma estrutura simples, porém eficaz, para RAEs. Especificamente, DecQ introduz consultas leves de condensação de detalhes que extraem informações refinadas de características intermediárias do VFM por meio de módulos condensadores. Essas consultas são incorporadas ao decodificador para apoiar a reconstrução e são geradas conjuntamente com os tokens de patch durante a modelagem generativa. Ao agregar informações de camadas rasas e profundas, DecQ mitiga efetivamente a troca entre reconstrução e geração, melhorando tanto a qualidade da reconstrução quanto o desempenho generativo. Nossos experimentos demonstram que: (1) com apenas 8 consultas adicionais e 3,9% de computação extra, DecQ melhora a reconstrução em relação ao RAE baseado em DINOv2 congelado, aumentando o PSNR de 19,13 dB para 22,76 dB; e (2) para modelagem generativa, DecQ alcança uma convergência 3,3 vezes mais rápida que o RAE, obtendo um FID de 1,41 sem orientação e 1,05 com orientação.

English

Representation Autoencoders (RAEs) leverage frozen vision foundation models (VFMs) as tokenizer encoders, providing robust high-level representations that facilitate fast convergence and high-quality generation in latent diffusion models. However, freezing the VFM inherently constrains its spatial reconstruction capacity, limiting fine-grained generation and image editing; in contrast, incorporating reconstruction-oriented signals via fine-tuning disrupts the pretrained semantic space and degrades generative fidelity. To address this trade-off, we propose DecQ, a simple yet effective framework for RAEs. Specifically, DecQ introduces lightweight detail-condensing queries that extract fine-grained information from intermediate VFM features through condenser modules. These queries are incorporated into the decoder to support reconstruction and are jointly generated with patch tokens during generative modeling. By aggregating information from both shallow and deep layers, DecQ effectively mitigates the reconstruction--generation trade-off, improving both reconstruction quality and generative performance. Our experiments demonstrate that: (1) with only 8 additional queries and 3.9% extra computation, DecQ improves reconstruction over the frozen DINOv2-based RAE, increasing PSNR from 19.13 dB to 22.76 dB; and (2) for generative modeling, DecQ achieves 3.3times faster convergence than RAE, attaining an FID of 1.41 without guidance and 1.05 with guidance.