TextCrafter : Rendu précis de multiples textes dans des scènes visuelles complexes
TextCrafter: Accurately Rendering Multiple Texts in Complex Visual Scenes
March 30, 2025
Auteurs: Nikai Du, Zhennan Chen, Zhizhou Chen, Shan Gao, Xi Chen, Zhengkai Jiang, Jian Yang, Ying Tai
cs.AI
Résumé
Cet article explore la tâche de Génération de Texte Visuel Complexe (CVTG), qui consiste à générer du contenu textuel complexe réparti dans diverses régions d'images visuelles. Dans le cadre du CVTG, les modèles de génération d'images produisent souvent du texte visuel déformé, flou ou manquant. Pour relever ces défis, nous proposons TextCrafter, une nouvelle méthode de rendu multi-texte visuel. TextCrafter utilise une stratégie progressive pour décomposer le texte visuel complexe en composants distincts tout en assurant un alignement robuste entre le contenu textuel et son support visuel. De plus, il intègre un mécanisme d'amélioration de la focalisation sur les tokens pour accentuer la visibilité du texte visuel lors du processus de génération. TextCrafter résout efficacement les principaux défis des tâches CVTG, tels que la confusion, les omissions et le flou du texte. Par ailleurs, nous présentons un nouveau jeu de données de référence, CVTG-2K, conçu pour évaluer rigoureusement les performances des modèles génératifs sur les tâches CVTG. Des expériences approfondies démontrent que notre méthode surpasse les approches de pointe.
English
This paper explores the task of Complex Visual Text Generation (CVTG), which
centers on generating intricate textual content distributed across diverse
regions within visual images. In CVTG, image generation models often rendering
distorted and blurred visual text or missing some visual text. To tackle these
challenges, we propose TextCrafter, a novel multi-visual text rendering method.
TextCrafter employs a progressive strategy to decompose complex visual text
into distinct components while ensuring robust alignment between textual
content and its visual carrier. Additionally, it incorporates a token focus
enhancement mechanism to amplify the prominence of visual text during the
generation process. TextCrafter effectively addresses key challenges in CVTG
tasks, such as text confusion, omissions, and blurriness. Moreover, we present
a new benchmark dataset, CVTG-2K, tailored to rigorously evaluate the
performance of generative models on CVTG tasks. Extensive experiments
demonstrate that our method surpasses state-of-the-art approaches.Summary
AI-Generated Summary