GlyphControl: Controllo Condizionale dei Glifi per la Generazione Visiva di Testo
GlyphControl: Glyph Conditional Control for Visual Text Generation
May 29, 2023
Autori: Yukang Yang, Dongnan Gui, Yuhui Yuan, Haisong Ding, Han Hu, Kai Chen
cs.AI
Abstract
Recentemente, si è registrato un crescente interesse nello sviluppo di modelli generativi testo-immagine basati su diffusione, in grado di produrre testo visivo coerente e ben strutturato. In questo articolo, proponiamo un approccio innovativo ed efficiente chiamato GlyphControl per affrontare questo compito. A differenza dei metodi esistenti che si basano su encoder di testo sensibili ai caratteri come ByT5 e richiedono il riaddestramento dei modelli testo-immagine, il nostro approccio sfrutta informazioni condizionali aggiuntive sui glifi per migliorare le prestazioni del modello Stable-Diffusion già disponibile nella generazione di testo visivo accurato. Incorporando istruzioni sui glifi, gli utenti possono personalizzare il contenuto, la posizione e le dimensioni del testo generato in base alle loro esigenze specifiche. Per facilitare ulteriori ricerche nella generazione di testo visivo, abbiamo costruito un dataset di benchmark per l'addestramento chiamato LAION-Glyph. Valutiamo l'efficacia del nostro approccio misurando metriche basate su OCR e punteggi CLIP del testo visivo generato. Le nostre valutazioni empiriche dimostrano che GlyphControl supera il recente approccio DeepFloyd IF in termini di accuratezza OCR e punteggi CLIP, evidenziando l'efficacia del nostro metodo.
English
Recently, there has been a growing interest in developing diffusion-based
text-to-image generative models capable of generating coherent and well-formed
visual text. In this paper, we propose a novel and efficient approach called
GlyphControl to address this task. Unlike existing methods that rely on
character-aware text encoders like ByT5 and require retraining of text-to-image
models, our approach leverages additional glyph conditional information to
enhance the performance of the off-the-shelf Stable-Diffusion model in
generating accurate visual text. By incorporating glyph instructions, users can
customize the content, location, and size of the generated text according to
their specific requirements. To facilitate further research in visual text
generation, we construct a training benchmark dataset called LAION-Glyph. We
evaluate the effectiveness of our approach by measuring OCR-based metrics and
CLIP scores of the generated visual text. Our empirical evaluations demonstrate
that GlyphControl outperforms the recent DeepFloyd IF approach in terms of OCR
accuracy and CLIP scores, highlighting the efficacy of our method.