End-to-End Autoregressive Bildgenerierung mit 1D-Semantic-Tokenizer

Zusammenfassung

Autoregressive Bildmodellierung basiert auf visuellen Tokenizern, um Bilder in kompakte latente Repräsentationen zu komprimieren. Wir entwickeln eine End-to-End-Trainingspipeline, die Rekonstruktion und Generierung gemeinsam optimiert und so eine direkte Rückkopplung von den Generierungsergebnissen zum Tokenizer ermöglicht. Dies steht im Gegensatz zu früheren zweistufigen Ansätzen, bei denen Tokenizer und generative Modelle separat trainiert werden. Wir untersuchen weiterhin die Nutzung von Vision-Foundation-Modellen, um 1D-Tokenizer für die autoregressive Modellierung zu verbessern. Unser autoregressives generatives Modell erzielt starke empirische Ergebnisse, einschließlich eines state-of-the-art FID-Scores von 1,48 ohne Guidance bei der ImageNet-256x256-Generierung.

English

Autoregressive image modeling relies on visual tokenizers to compress images into compact latent representations. We design an end-to-end training pipeline that jointly optimizes reconstruction and generation, enabling direct supervision from generation results to the tokenizer. This contrasts with prior two-stage approaches that train tokenizers and generative models separately. We further investigate leveraging vision foundation models to improve 1D tokenizers for autoregressive modeling. Our autoregressive generative model achieves strong empirical results, including a state-of-the-art FID score of 1.48 without guidance on ImageNet 256x256 generation.

End-to-End Autoregressive Bildgenerierung mit 1D-Semantic-Tokenizer

End-to-End Autoregressive Image Generation with 1D Semantic Tokenizer

Zusammenfassung

Support