TextCrafter : Rendu précis de multiples textes dans des scènes visuelles complexes

Résumé

Cet article explore la tâche de Génération de Texte Visuel Complexe (CVTG), qui consiste à générer du contenu textuel complexe réparti dans diverses régions d'images visuelles. Dans le cadre du CVTG, les modèles de génération d'images produisent souvent du texte visuel déformé, flou ou manquant. Pour relever ces défis, nous proposons TextCrafter, une nouvelle méthode de rendu multi-texte visuel. TextCrafter utilise une stratégie progressive pour décomposer le texte visuel complexe en composants distincts tout en assurant un alignement robuste entre le contenu textuel et son support visuel. De plus, il intègre un mécanisme d'amélioration de la focalisation sur les tokens pour accentuer la visibilité du texte visuel lors du processus de génération. TextCrafter résout efficacement les principaux défis des tâches CVTG, tels que la confusion, les omissions et le flou du texte. Par ailleurs, nous présentons un nouveau jeu de données de référence, CVTG-2K, conçu pour évaluer rigoureusement les performances des modèles génératifs sur les tâches CVTG. Des expériences approfondies démontrent que notre méthode surpasse les approches de pointe.

English

This paper explores the task of Complex Visual Text Generation (CVTG), which centers on generating intricate textual content distributed across diverse regions within visual images. In CVTG, image generation models often rendering distorted and blurred visual text or missing some visual text. To tackle these challenges, we propose TextCrafter, a novel multi-visual text rendering method. TextCrafter employs a progressive strategy to decompose complex visual text into distinct components while ensuring robust alignment between textual content and its visual carrier. Additionally, it incorporates a token focus enhancement mechanism to amplify the prominence of visual text during the generation process. TextCrafter effectively addresses key challenges in CVTG tasks, such as text confusion, omissions, and blurriness. Moreover, we present a new benchmark dataset, CVTG-2K, tailored to rigorously evaluate the performance of generative models on CVTG tasks. Extensive experiments demonstrate that our method surpasses state-of-the-art approaches.