Génération visuelle de texte en contexte réel
Visual Text Generation in the Wild
July 19, 2024
papers.authors: Yuanzhi Zhu, Jiawei Liu, Feiyu Gao, Wenyu Liu, Xinggang Wang, Peng Wang, Fei Huang, Cong Yao, Zhibo Yang
cs.AI
papers.abstract
Récemment, avec les avancées rapides des modèles génératifs, le domaine de la génération de texte visuel a connu des progrès significatifs. Cependant, il reste difficile de produire des images de texte de haute qualité dans des scénarios réels, car trois critères essentiels doivent être satisfaits : (1) Fidélité : les images de texte générées doivent être photo-réalistes et leur contenu doit correspondre aux conditions spécifiées ; (2) Pertinence : les régions et le contenu du texte généré doivent s’intégrer de manière cohérente dans la scène ; (3) Utilité : les images de texte générées doivent faciliter les tâches associées (par exemple, la détection et la reconnaissance de texte). Après analyse, nous constatons que les méthodes existantes, qu’elles soient basées sur le rendu ou sur la diffusion, peinent à répondre simultanément à tous ces aspects, limitant ainsi leur champ d’application. Par conséquent, nous proposons dans cet article un générateur de texte visuel (nommé SceneVTG), capable de produire des images de texte de haute qualité dans des environnements variés. Suivant un paradigme en deux étapes, SceneVTG s’appuie sur un modèle de langage multimodal à grande échelle pour recommander des régions et des contenus de texte pertinents à plusieurs échelles et niveaux, qui sont ensuite utilisés comme conditions par un modèle de diffusion conditionnelle pour générer les images de texte. Des expériences approfondies démontrent que SceneVTG surpasse significativement les méthodes traditionnelles basées sur le rendu et les méthodes récentes basées sur la diffusion en termes de fidélité et de pertinence. De plus, les images générées offrent une utilité supérieure pour les tâches de détection et de reconnaissance de texte. Le code et les jeux de données sont disponibles sur AdvancedLiterateMachinery.
English
Recently, with the rapid advancements of generative models, the field of
visual text generation has witnessed significant progress. However, it is still
challenging to render high-quality text images in real-world scenarios, as
three critical criteria should be satisfied: (1) Fidelity: the generated text
images should be photo-realistic and the contents are expected to be the same
as specified in the given conditions; (2) Reasonability: the regions and
contents of the generated text should cohere with the scene; (3) Utility: the
generated text images can facilitate related tasks (e.g., text detection and
recognition). Upon investigation, we find that existing methods, either
rendering-based or diffusion-based, can hardly meet all these aspects
simultaneously, limiting their application range. Therefore, we propose in this
paper a visual text generator (termed SceneVTG), which can produce high-quality
text images in the wild. Following a two-stage paradigm, SceneVTG leverages a
Multimodal Large Language Model to recommend reasonable text regions and
contents across multiple scales and levels, which are used by a conditional
diffusion model as conditions to generate text images. Extensive experiments
demonstrate that the proposed SceneVTG significantly outperforms traditional
rendering-based methods and recent diffusion-based methods in terms of fidelity
and reasonability. Besides, the generated images provide superior utility for
tasks involving text detection and text recognition. Code and datasets are
available at AdvancedLiterateMachinery.