Democratisering van Tekst-naar-Afbeelding Masker Generatieve Modellen met Compacte Tekst-Bewuste Eéndimensionale Tokens
Democratizing Text-to-Image Masked Generative Models with Compact Text-Aware One-Dimensional Tokens
January 13, 2025
Auteurs: Dongwon Kim, Ju He, Qihang Yu, Chenglin Yang, Xiaohui Shen, Suha Kwak, Liang-Chieh Chen
cs.AI
Samenvatting
Afbeelding-tokenizers vormen de basis van moderne tekst-naar-afbeelding generatieve modellen, maar zijn berucht moeilijk te trainen. Bovendien vertrouwen de meeste bestaande tekst-naar-afbeelding modellen op grootschalige, hoogwaardige privé datasets, waardoor ze lastig te repliceren zijn. In dit werk introduceren we Text-Aware Transformer-gebaseerde 1-dimensionale Tokenizer (TA-TiTok), een efficiënte en krachtige afbeelding-tokenizer die zowel discrete als continue 1-dimensionale tokens kan gebruiken. TA-TiTok integreert op unieke wijze tekstuele informatie tijdens het decoderen van de tokenizer (d.w.z. detokenisatie), wat de convergentie versnelt en de prestaties verbetert. TA-TiTok profiteert ook van een vereenvoudigd, maar effectief, eenfasig trainingsproces, waarbij de complexe tweefasige distillatie die in eerdere 1-dimensionale tokenizers werd gebruikt, overbodig wordt gemaakt. Deze ontwerpkeuze maakt naadloos schaalbaarheid naar grote datasets mogelijk. Voortbouwend hierop introduceren we een familie van tekst-naar-afbeelding Masked Generative Modellen (MaskGen), exclusief getraind op open data, terwijl vergelijkbare prestaties worden behaald als modellen getraind op privégegevens. We streven ernaar zowel de efficiënte, krachtige TA-TiTok-tokenizers als de open-data, open-gewicht MaskGen-modellen vrij te geven om bredere toegang te bevorderen en het veld van tekst-naar-afbeelding masked generatieve modellen te democratiseren.
English
Image tokenizers form the foundation of modern text-to-image generative
models but are notoriously difficult to train. Furthermore, most existing
text-to-image models rely on large-scale, high-quality private datasets, making
them challenging to replicate. In this work, we introduce Text-Aware
Transformer-based 1-Dimensional Tokenizer (TA-TiTok), an efficient and powerful
image tokenizer that can utilize either discrete or continuous 1-dimensional
tokens. TA-TiTok uniquely integrates textual information during the tokenizer
decoding stage (i.e., de-tokenization), accelerating convergence and enhancing
performance. TA-TiTok also benefits from a simplified, yet effective, one-stage
training process, eliminating the need for the complex two-stage distillation
used in previous 1-dimensional tokenizers. This design allows for seamless
scalability to large datasets. Building on this, we introduce a family of
text-to-image Masked Generative Models (MaskGen), trained exclusively on open
data while achieving comparable performance to models trained on private data.
We aim to release both the efficient, strong TA-TiTok tokenizers and the
open-data, open-weight MaskGen models to promote broader access and democratize
the field of text-to-image masked generative models.Summary
AI-Generated Summary