Generación Autoregresiva de Imágenes de Extremo a Extremo con Tokenizador Semántico 1D

Resumen

La modelización autoregresiva de imágenes se basa en tokenizadores visuales para comprimir imágenes en representaciones latentes compactas. Diseñamos una canalización de entrenamiento de extremo a extremo que optimiza conjuntamente la reconstrucción y la generación, permitiendo una supervisión directa desde los resultados de generación al tokenizador. Esto contrasta con enfoques previos en dos etapas que entrenan tokenizadores y modelos generativos por separado. Investigamos además el aprovechamiento de modelos fundacionales de visión para mejorar los tokenizadores 1D en la modelización autoregresiva. Nuestro modelo generativo autoregresivo logra sólidos resultados empíricos, incluyendo un puntaje FID state-of-the-art de 1.48 sin guía en la generación de ImageNet 256x256.

English

Autoregressive image modeling relies on visual tokenizers to compress images into compact latent representations. We design an end-to-end training pipeline that jointly optimizes reconstruction and generation, enabling direct supervision from generation results to the tokenizer. This contrasts with prior two-stage approaches that train tokenizers and generative models separately. We further investigate leveraging vision foundation models to improve 1D tokenizers for autoregressive modeling. Our autoregressive generative model achieves strong empirical results, including a state-of-the-art FID score of 1.48 without guidance on ImageNet 256x256 generation.

Generación Autoregresiva de Imágenes de Extremo a Extremo con Tokenizador Semántico 1D

End-to-End Autoregressive Image Generation with 1D Semantic Tokenizer

Resumen

Support