Génération d'images autorégressive de bout en bout avec un tokeniseur sémantique 1D

Résumé

La modélisation autoregressive d'images repose sur des tokeniseurs visuels pour compresser les images en représentations latentes compactes. Nous concevons un pipeline d'entraînement de bout en bout qui optimise conjointement la reconstruction et la génération, permettant une supervision directe du tokeniseur à partir des résultats de génération. Cela contraste avec les approches antérieures en deux étapes qui entraînaient séparément les tokeniseurs et les modèles génératifs. Nous étudions en outre l'exploitation de modèles de fondation visuels pour améliorer les tokeniseurs 1D destinés à la modélisation autoregressive. Notre modèle génératif autoregressif obtient de solides résultats empiriques, notamment un score FID de pointe de 1,48 sans guidage sur la génération ImageNet 256x256.

English

Autoregressive image modeling relies on visual tokenizers to compress images into compact latent representations. We design an end-to-end training pipeline that jointly optimizes reconstruction and generation, enabling direct supervision from generation results to the tokenizer. This contrasts with prior two-stage approaches that train tokenizers and generative models separately. We further investigate leveraging vision foundation models to improve 1D tokenizers for autoregressive modeling. Our autoregressive generative model achieves strong empirical results, including a state-of-the-art FID score of 1.48 without guidance on ImageNet 256x256 generation.

Génération d'images autorégressive de bout en bout avec un tokeniseur sémantique 1D

End-to-End Autoregressive Image Generation with 1D Semantic Tokenizer

Résumé

Support