GlyphControl: Controllo Condizionale dei Glifi per la Generazione Visiva di Testo

Abstract

Recentemente, si è registrato un crescente interesse nello sviluppo di modelli generativi testo-immagine basati su diffusione, in grado di produrre testo visivo coerente e ben strutturato. In questo articolo, proponiamo un approccio innovativo ed efficiente chiamato GlyphControl per affrontare questo compito. A differenza dei metodi esistenti che si basano su encoder di testo sensibili ai caratteri come ByT5 e richiedono il riaddestramento dei modelli testo-immagine, il nostro approccio sfrutta informazioni condizionali aggiuntive sui glifi per migliorare le prestazioni del modello Stable-Diffusion già disponibile nella generazione di testo visivo accurato. Incorporando istruzioni sui glifi, gli utenti possono personalizzare il contenuto, la posizione e le dimensioni del testo generato in base alle loro esigenze specifiche. Per facilitare ulteriori ricerche nella generazione di testo visivo, abbiamo costruito un dataset di benchmark per l'addestramento chiamato LAION-Glyph. Valutiamo l'efficacia del nostro approccio misurando metriche basate su OCR e punteggi CLIP del testo visivo generato. Le nostre valutazioni empiriche dimostrano che GlyphControl supera il recente approccio DeepFloyd IF in termini di accuratezza OCR e punteggi CLIP, evidenziando l'efficacia del nostro metodo.

English

Recently, there has been a growing interest in developing diffusion-based text-to-image generative models capable of generating coherent and well-formed visual text. In this paper, we propose a novel and efficient approach called GlyphControl to address this task. Unlike existing methods that rely on character-aware text encoders like ByT5 and require retraining of text-to-image models, our approach leverages additional glyph conditional information to enhance the performance of the off-the-shelf Stable-Diffusion model in generating accurate visual text. By incorporating glyph instructions, users can customize the content, location, and size of the generated text according to their specific requirements. To facilitate further research in visual text generation, we construct a training benchmark dataset called LAION-Glyph. We evaluate the effectiveness of our approach by measuring OCR-based metrics and CLIP scores of the generated visual text. Our empirical evaluations demonstrate that GlyphControl outperforms the recent DeepFloyd IF approach in terms of OCR accuracy and CLIP scores, highlighting the efficacy of our method.

GlyphControl: Controllo Condizionale dei Glifi per la Generazione Visiva di Testo

GlyphControl: Glyph Conditional Control for Visual Text Generation

Abstract

Support