Démocratiser les modèles génératifs masqués texte-image avec des jetons unidimensionnels compacts sensibles au texte.
Democratizing Text-to-Image Masked Generative Models with Compact Text-Aware One-Dimensional Tokens
January 13, 2025
Auteurs: Dongwon Kim, Ju He, Qihang Yu, Chenglin Yang, Xiaohui Shen, Suha Kwak, Liang-Chieh Chen
cs.AI
Résumé
Les tokenizers d'image forment la base des modèles génératifs modernes de texte vers image, mais ils sont réputés difficiles à entraîner. De plus, la plupart des modèles existants de texte vers image reposent sur des ensembles de données privées à grande échelle et de haute qualité, ce qui les rend difficiles à reproduire. Dans ce travail, nous introduisons Text-Aware Transformer-based 1-Dimensional Tokenizer (TA-TiTok), un tokenizer d'image efficace et puissant qui peut utiliser des tokens 1-dimensionnels discrets ou continus. TA-TiTok intègre de manière unique les informations textuelles lors de l'étape de décodage du tokenizer (c'est-à-dire la détokenisation), accélérant la convergence et améliorant les performances. TA-TiTok bénéficie également d'un processus d'entraînement simplifié mais efficace en une seule étape, éliminant le besoin de la distillation en deux étapes complexe utilisée dans les tokenizers 1-dimensionnels précédents. Cette conception permet une évolutivité transparente vers de grands ensembles de données. En s'appuyant sur cela, nous introduisons une famille de modèles génératifs masqués texte-vers-image (MaskGen), entraînés exclusivement sur des données ouvertes tout en atteignant des performances comparables à celles des modèles entraînés sur des données privées. Nous visons à mettre à disposition à la fois les tokenizers TA-TiTok efficaces et solides et les modèles MaskGen à données ouvertes et poids ouverts pour promouvoir un accès plus large et démocratiser le domaine des modèles génératifs masqués texte-vers-image.
English
Image tokenizers form the foundation of modern text-to-image generative
models but are notoriously difficult to train. Furthermore, most existing
text-to-image models rely on large-scale, high-quality private datasets, making
them challenging to replicate. In this work, we introduce Text-Aware
Transformer-based 1-Dimensional Tokenizer (TA-TiTok), an efficient and powerful
image tokenizer that can utilize either discrete or continuous 1-dimensional
tokens. TA-TiTok uniquely integrates textual information during the tokenizer
decoding stage (i.e., de-tokenization), accelerating convergence and enhancing
performance. TA-TiTok also benefits from a simplified, yet effective, one-stage
training process, eliminating the need for the complex two-stage distillation
used in previous 1-dimensional tokenizers. This design allows for seamless
scalability to large datasets. Building on this, we introduce a family of
text-to-image Masked Generative Models (MaskGen), trained exclusively on open
data while achieving comparable performance to models trained on private data.
We aim to release both the efficient, strong TA-TiTok tokenizers and the
open-data, open-weight MaskGen models to promote broader access and democratize
the field of text-to-image masked generative models.Summary
AI-Generated Summary