Ausrichtung visueller Foundation-Encoder an Tokenizer für Diffusionsmodelle
Aligning Visual Foundation Encoders to Tokenizers for Diffusion Models
September 29, 2025
papers.authors: Bowei Chen, Sai Bi, Hao Tan, He Zhang, Tianyuan Zhang, Zhengqi Li, Yuanjun Xiong, Jianming Zhang, Kai Zhang
cs.AI
papers.abstract
In dieser Arbeit schlagen wir vor, vortrainierte visuelle Encoder auszurichten, um als Tokenizer für latente Diffusionsmodelle in der Bildgenerierung zu dienen. Im Gegensatz zum Training eines Variational Autoencoders (VAE) von Grund auf, der hauptsächlich niedrigstufige Details betont, nutzt unser Ansatz die reiche semantische Struktur von Foundation-Encodern. Wir führen eine dreistufige Ausrichtungsstrategie ein: (1) den Encoder einfrieren und einen Adapter sowie einen Decoder trainieren, um einen semantischen latenten Raum zu etablieren; (2) alle Komponenten gemeinsam mit einem zusätzlichen semantischen Erhaltungsverlust optimieren, wodurch der Encoder wahrnehmungsbezogene Details erfassen kann, während er gleichzeitig hochstufige Semantik beibehält; und (3) den Decoder verfeinern, um die Rekonstruktionsqualität zu verbessern. Diese Ausrichtung führt zu semantisch reichhaltigen Bild-Tokenizern, die Diffusionsmodelle begünstigen. Auf ImageNet 256×256 beschleunigt unser Tokenizer die Konvergenz von Diffusionsmodellen und erreicht einen gFID von 1,90 innerhalb von nur 64 Epochen, und verbessert die Generierung sowohl mit als auch ohne Classifier-Free Guidance. Bei der Skalierung auf LAION übertrifft ein 2B-Parameter Text-zu-Bild-Modell, das mit unserem Tokenizer trainiert wurde, den FLUX VAE unter denselben Trainingsschritten konsistent. Insgesamt ist unsere Methode einfach, skalierbar und etabliert ein semantisch fundiertes Paradigma für das Design kontinuierlicher Tokenizer.
English
In this work, we propose aligning pretrained visual encoders to serve as
tokenizers for latent diffusion models in image generation. Unlike training a
variational autoencoder (VAE) from scratch, which primarily emphasizes
low-level details, our approach leverages the rich semantic structure of
foundation encoders. We introduce a three-stage alignment strategy: (1) freeze
the encoder and train an adapter and a decoder to establish a semantic latent
space; (2) jointly optimize all components with an additional semantic
preservation loss, enabling the encoder to capture perceptual details while
retaining high-level semantics; and (3) refine the decoder for improved
reconstruction quality. This alignment yields semantically rich image
tokenizers that benefit diffusion models. On ImageNet 256times256, our
tokenizer accelerates the convergence of diffusion models, reaching a gFID of
1.90 within just 64 epochs, and improves generation both with and without
classifier-free guidance. Scaling to LAION, a 2B-parameter text-to-image model
trained with our tokenizer consistently outperforms FLUX VAE under the same
training steps. Overall, our method is simple, scalable, and establishes a
semantically grounded paradigm for continuous tokenizer design.