ChatPaper.aiChatPaper

Génération visuelle de texte en contexte réel

Visual Text Generation in the Wild

July 19, 2024
papers.authors: Yuanzhi Zhu, Jiawei Liu, Feiyu Gao, Wenyu Liu, Xinggang Wang, Peng Wang, Fei Huang, Cong Yao, Zhibo Yang
cs.AI

papers.abstract

Récemment, avec les avancées rapides des modèles génératifs, le domaine de la génération de texte visuel a connu des progrès significatifs. Cependant, il reste difficile de produire des images de texte de haute qualité dans des scénarios réels, car trois critères essentiels doivent être satisfaits : (1) Fidélité : les images de texte générées doivent être photo-réalistes et leur contenu doit correspondre aux conditions spécifiées ; (2) Pertinence : les régions et le contenu du texte généré doivent s’intégrer de manière cohérente dans la scène ; (3) Utilité : les images de texte générées doivent faciliter les tâches associées (par exemple, la détection et la reconnaissance de texte). Après analyse, nous constatons que les méthodes existantes, qu’elles soient basées sur le rendu ou sur la diffusion, peinent à répondre simultanément à tous ces aspects, limitant ainsi leur champ d’application. Par conséquent, nous proposons dans cet article un générateur de texte visuel (nommé SceneVTG), capable de produire des images de texte de haute qualité dans des environnements variés. Suivant un paradigme en deux étapes, SceneVTG s’appuie sur un modèle de langage multimodal à grande échelle pour recommander des régions et des contenus de texte pertinents à plusieurs échelles et niveaux, qui sont ensuite utilisés comme conditions par un modèle de diffusion conditionnelle pour générer les images de texte. Des expériences approfondies démontrent que SceneVTG surpasse significativement les méthodes traditionnelles basées sur le rendu et les méthodes récentes basées sur la diffusion en termes de fidélité et de pertinence. De plus, les images générées offrent une utilité supérieure pour les tâches de détection et de reconnaissance de texte. Le code et les jeux de données sont disponibles sur AdvancedLiterateMachinery.
English
Recently, with the rapid advancements of generative models, the field of visual text generation has witnessed significant progress. However, it is still challenging to render high-quality text images in real-world scenarios, as three critical criteria should be satisfied: (1) Fidelity: the generated text images should be photo-realistic and the contents are expected to be the same as specified in the given conditions; (2) Reasonability: the regions and contents of the generated text should cohere with the scene; (3) Utility: the generated text images can facilitate related tasks (e.g., text detection and recognition). Upon investigation, we find that existing methods, either rendering-based or diffusion-based, can hardly meet all these aspects simultaneously, limiting their application range. Therefore, we propose in this paper a visual text generator (termed SceneVTG), which can produce high-quality text images in the wild. Following a two-stage paradigm, SceneVTG leverages a Multimodal Large Language Model to recommend reasonable text regions and contents across multiple scales and levels, which are used by a conditional diffusion model as conditions to generate text images. Extensive experiments demonstrate that the proposed SceneVTG significantly outperforms traditional rendering-based methods and recent diffusion-based methods in terms of fidelity and reasonability. Besides, the generated images provide superior utility for tasks involving text detection and text recognition. Code and datasets are available at AdvancedLiterateMachinery.
PDF93November 28, 2024