DecQ: Detail-verdichtende Abfragen für verbesserte Rekonstruktion und Generierung in Repräsentationsautoencodern

Zusammenfassung

Repräsentations-Autoencoder (RAEs) nutzen eingefrorene visuelle Basismodelle (VFMs) als Tokenizer-Encoder, die robuste hochrangige Repräsentationen liefern und so eine schnelle Konvergenz sowie eine qualitativ hochwertige Generierung in latenten Diffusionsmodellen ermöglichen. Das Einfrieren des VFM schränkt jedoch zwangsläufig dessen räumliche Rekonstruktionsfähigkeit ein, was detailgenaue Generierung und Bildbearbeitung limitiert; eine Integration rekonstruktionsorientierter Signale durch Feinabstimmung stört hingegen den vortrainierten semantischen Raum und beeinträchtigt die generative Wiedergabetreue. Um diese Abwägung zu adressieren, schlagen wir DecQ vor, ein einfaches, aber effektives Framework für RAEs. Konkret führt DecQ leichte detailverdichtende Abfragen ein, die durch Kondensatormodule feinkörnige Informationen aus den Zwischenmerkmalen des VFM extrahieren. Diese Abfragen werden in den Decoder integriert, um die Rekonstruktion zu unterstützen, und während des generativen Modellierens gemeinsam mit den Patch-Token generiert. Durch die Aggregation von Informationen aus sowohl flachen als auch tiefen Schichten mildert DecQ effektiv den Rekonstruktions-Generierungs-Kompromiss und verbessert sowohl die Rekonstruktionsqualität als auch die generative Leistung. Unsere Experimente zeigen: (1) Mit nur 8 zusätzlichen Abfragen und 3,9% mehr Rechenaufwand verbessert DecQ die Rekonstruktion gegenüber dem eingefrorenen DINOv2-basierten RAE und erhöht den PSNR von 19,13 dB auf 22,76 dB; (2) für das generative Modellieren erreicht DecQ eine 3,3-mal schnellere Konvergenz als RAE, mit einem FID von 1,41 ohne Führung und 1,05 mit Führung.

English

Representation Autoencoders (RAEs) leverage frozen vision foundation models (VFMs) as tokenizer encoders, providing robust high-level representations that facilitate fast convergence and high-quality generation in latent diffusion models. However, freezing the VFM inherently constrains its spatial reconstruction capacity, limiting fine-grained generation and image editing; in contrast, incorporating reconstruction-oriented signals via fine-tuning disrupts the pretrained semantic space and degrades generative fidelity. To address this trade-off, we propose DecQ, a simple yet effective framework for RAEs. Specifically, DecQ introduces lightweight detail-condensing queries that extract fine-grained information from intermediate VFM features through condenser modules. These queries are incorporated into the decoder to support reconstruction and are jointly generated with patch tokens during generative modeling. By aggregating information from both shallow and deep layers, DecQ effectively mitigates the reconstruction--generation trade-off, improving both reconstruction quality and generative performance. Our experiments demonstrate that: (1) with only 8 additional queries and 3.9% extra computation, DecQ improves reconstruction over the frozen DINOv2-based RAE, increasing PSNR from 19.13 dB to 22.76 dB; and (2) for generative modeling, DecQ achieves 3.3times faster convergence than RAE, attaining an FID of 1.41 without guidance and 1.05 with guidance.