TextDiffuser : Modèles de diffusion en tant que peintres de texte
TextDiffuser: Diffusion Models as Text Painters
May 18, 2023
Auteurs: Jingye Chen, Yupan Huang, Tengchao Lv, Lei Cui, Qifeng Chen, Furu Wei
cs.AI
Résumé
Les modèles de diffusion ont suscité un intérêt croissant pour leurs impressionnantes capacités de génération, mais ils rencontrent actuellement des difficultés à produire du texte précis et cohérent. Pour résoudre ce problème, nous présentons TextDiffuser, qui se concentre sur la génération d'images contenant du texte visuellement attrayant et cohérent avec les arrière-plans. TextDiffuser se compose de deux étapes : d'abord, un modèle Transformer génère la disposition des mots-clés extraits des invites textuelles, puis des modèles de diffusion génèrent des images conditionnées par l'invite textuelle et la disposition générée. De plus, nous contribuons avec le premier jeu de données à grande échelle d'images textuelles annotées par OCR, MARIO-10M, contenant 10 millions de paires image-texte avec des annotations de reconnaissance de texte, de détection et de segmentation au niveau des caractères. Nous collectons également le benchmark MARIO-Eval pour servir d'outil complet d'évaluation de la qualité de rendu du texte. À travers des expériences et des études utilisateurs, nous montrons que TextDiffuser est flexible et contrôlable pour créer des images textuelles de haute qualité en utilisant uniquement des invites textuelles ou en combinaison avec des images de modèles de texte, et réalise de la réparation de texte pour reconstruire des images incomplètes contenant du texte. Le code, le modèle et le jeu de données seront disponibles à l'adresse https://aka.ms/textdiffuser.
English
Diffusion models have gained increasing attention for their impressive
generation abilities but currently struggle with rendering accurate and
coherent text. To address this issue, we introduce TextDiffuser,
focusing on generating images with visually appealing text that is coherent
with backgrounds. TextDiffuser consists of two stages: first, a Transformer
model generates the layout of keywords extracted from text prompts, and then
diffusion models generate images conditioned on the text prompt and the
generated layout. Additionally, we contribute the first large-scale text images
dataset with OCR annotations, MARIO-10M, containing 10 million
image-text pairs with text recognition, detection, and character-level
segmentation annotations. We further collect the MARIO-Eval benchmark
to serve as a comprehensive tool for evaluating text rendering quality. Through
experiments and user studies, we show that TextDiffuser is flexible and
controllable to create high-quality text images using text prompts alone or
together with text template images, and conduct text inpainting to reconstruct
incomplete images with text. The code, model, and dataset will be available at
https://aka.ms/textdiffuser.