ChatPaper.aiChatPaper

Allineamento degli encoder visivi di base ai tokenizer per i modelli di diffusione

Aligning Visual Foundation Encoders to Tokenizers for Diffusion Models

September 29, 2025
Autori: Bowei Chen, Sai Bi, Hao Tan, He Zhang, Tianyuan Zhang, Zhengqi Li, Yuanjun Xiong, Jianming Zhang, Kai Zhang
cs.AI

Abstract

In questo lavoro, proponiamo di allineare encoder visivi pre-addestrati per fungere da tokenizer nei modelli di diffusione latente per la generazione di immagini. A differenza dell'addestramento di un autoencoder variazionale (VAE) da zero, che si concentra principalmente su dettagli di basso livello, il nostro approccio sfrutta la ricca struttura semantica degli encoder di base. Introduciamo una strategia di allineamento in tre fasi: (1) congeliamo l'encoder e addestriamo un adattatore e un decoder per stabilire uno spazio latente semantico; (2) ottimizziamo congiuntamente tutti i componenti con una perdita aggiuntiva di preservazione semantica, consentendo all'encoder di catturare dettagli percettivi mantenendo la semantica di alto livello; e (3) affiniamo il decoder per migliorare la qualità della ricostruzione. Questo allineamento produce tokenizer di immagini semanticamente ricchi che avvantaggiano i modelli di diffusione. Su ImageNet 256×256, il nostro tokenizer accelera la convergenza dei modelli di diffusione, raggiungendo un gFID di 1.90 in soli 64 epoche, e migliora la generazione sia con che senza guida classifier-free. Scalando su LAION, un modello text-to-image da 2 miliardi di parametri addestrato con il nostro tokenizer supera costantemente FLUX VAE con lo stesso numero di passi di addestramento. Nel complesso, il nostro metodo è semplice, scalabile e stabilisce un paradigma semanticamente fondato per la progettazione di tokenizer continui.
English
In this work, we propose aligning pretrained visual encoders to serve as tokenizers for latent diffusion models in image generation. Unlike training a variational autoencoder (VAE) from scratch, which primarily emphasizes low-level details, our approach leverages the rich semantic structure of foundation encoders. We introduce a three-stage alignment strategy: (1) freeze the encoder and train an adapter and a decoder to establish a semantic latent space; (2) jointly optimize all components with an additional semantic preservation loss, enabling the encoder to capture perceptual details while retaining high-level semantics; and (3) refine the decoder for improved reconstruction quality. This alignment yields semantically rich image tokenizers that benefit diffusion models. On ImageNet 256times256, our tokenizer accelerates the convergence of diffusion models, reaching a gFID of 1.90 within just 64 epochs, and improves generation both with and without classifier-free guidance. Scaling to LAION, a 2B-parameter text-to-image model trained with our tokenizer consistently outperforms FLUX VAE under the same training steps. Overall, our method is simple, scalable, and establishes a semantically grounded paradigm for continuous tokenizer design.
PDF22October 2, 2025