DecQ: Детально-конденсирующие запросы для улучшенной реконструкции и генерации в автоэнкодерах представлений

Аннотация

Автоэнкодеры представлений (RAEs) используют замороженные фундаментальные модели зрения (VFMs) в качестве энкодеров-токенизаторов, обеспечивая надежные высокоуровневые представления, которые способствуют быстрой сходимости и высококачественной генерации в латентных диффузионных моделях. Однако заморозка VFM по своей сути ограничивает их способность к пространственной реконструкции, что ограничивает мелкозернистую генерацию и редактирование изображений; напротив, включение сигналов, ориентированных на реконструкцию, посредством тонкой настройки нарушает предобученное семантическое пространство и ухудшает точность генерации. Для решения этого компромисса мы предлагаем DecQ — простую, но эффективную структуру для RAE. В частности, DecQ вводит легковесные запросы, конденсирующие детали, которые извлекают мелкозернистую информацию из промежуточных признаков VFM с помощью модулей конденсации. Эти запросы встраиваются в декодер для поддержки реконструкции и совместно генерируются с патч-токенами в процессе генеративного моделирования. Агрегируя информацию как из мелких, так и из глубоких слоев, DecQ эффективно смягчает компромисс между реконструкцией и генерацией, улучшая как качество реконструкции, так и производительность генерации. Наши эксперименты показывают, что: (1) всего с 8 дополнительными запросами и 3,9% дополнительных вычислений DecQ улучшает реконструкцию по сравнению с замороженным RAE на основе DINOv2, увеличивая PSNR с 19,13 дБ до 22,76 дБ; (2) для генеративного моделирования DecQ достигает в 3,3 раза более быстрой сходимости, чем RAE, достигая FID 1,41 без направляющего сигнала и 1,05 с направляющим сигналом.

English

Representation Autoencoders (RAEs) leverage frozen vision foundation models (VFMs) as tokenizer encoders, providing robust high-level representations that facilitate fast convergence and high-quality generation in latent diffusion models. However, freezing the VFM inherently constrains its spatial reconstruction capacity, limiting fine-grained generation and image editing; in contrast, incorporating reconstruction-oriented signals via fine-tuning disrupts the pretrained semantic space and degrades generative fidelity. To address this trade-off, we propose DecQ, a simple yet effective framework for RAEs. Specifically, DecQ introduces lightweight detail-condensing queries that extract fine-grained information from intermediate VFM features through condenser modules. These queries are incorporated into the decoder to support reconstruction and are jointly generated with patch tokens during generative modeling. By aggregating information from both shallow and deep layers, DecQ effectively mitigates the reconstruction--generation trade-off, improving both reconstruction quality and generative performance. Our experiments demonstrate that: (1) with only 8 additional queries and 3.9% extra computation, DecQ improves reconstruction over the frozen DINOv2-based RAE, increasing PSNR from 19.13 dB to 22.76 dB; and (2) for generative modeling, DecQ achieves 3.3times faster convergence than RAE, attaining an FID of 1.41 without guidance and 1.05 with guidance.