TextCrafter: Präzise Darstellung mehrerer Texte in komplexen visuellen Szenen
TextCrafter: Accurately Rendering Multiple Texts in Complex Visual Scenes
March 30, 2025
Autoren: Nikai Du, Zhennan Chen, Zhizhou Chen, Shan Gao, Xi Chen, Zhengkai Jiang, Jian Yang, Ying Tai
cs.AI
Zusammenfassung
Dieses Papier untersucht die Aufgabe der komplexen visuellen Textgenerierung (Complex Visual Text Generation, CVTG), die sich auf die Erzeugung von anspruchsvollem Textinhalt konzentriert, der über verschiedene Bereiche innerhalb von visuellen Bildern verteilt ist. Bei CVTG erzeugen Bildgenerierungsmodelle oft verzerrten und unscharfen visuellen Text oder lassen Teile des visuellen Texts aus. Um diese Herausforderungen zu bewältigen, schlagen wir TextCrafter vor, eine neuartige Methode zur Darstellung von mehrfachem visuellen Text. TextCrafter verwendet eine progressive Strategie, um komplexen visuellen Text in verschiedene Komponenten zu zerlegen, während gleichzeitig eine robuste Ausrichtung zwischen dem Textinhalt und seinem visuellen Träger sichergestellt wird. Zusätzlich integriert es einen Token-Fokus-Verstärkungsmechanismus, um die Sichtbarkeit des visuellen Texts während des Generierungsprozesses zu erhöhen. TextCrafter adressiert effektiv zentrale Herausforderungen in CVTG-Aufgaben, wie Textverwirrung, Auslassungen und Unschärfe. Darüber hinaus stellen wir einen neuen Benchmark-Datensatz, CVTG-2K, vor, der speziell dafür entwickelt wurde, die Leistung von Generierungsmodellen bei CVTG-Aufgaben rigoros zu bewerten. Umfangreiche Experimente zeigen, dass unsere Methode state-of-the-art Ansätze übertrifft.
English
This paper explores the task of Complex Visual Text Generation (CVTG), which
centers on generating intricate textual content distributed across diverse
regions within visual images. In CVTG, image generation models often rendering
distorted and blurred visual text or missing some visual text. To tackle these
challenges, we propose TextCrafter, a novel multi-visual text rendering method.
TextCrafter employs a progressive strategy to decompose complex visual text
into distinct components while ensuring robust alignment between textual
content and its visual carrier. Additionally, it incorporates a token focus
enhancement mechanism to amplify the prominence of visual text during the
generation process. TextCrafter effectively addresses key challenges in CVTG
tasks, such as text confusion, omissions, and blurriness. Moreover, we present
a new benchmark dataset, CVTG-2K, tailored to rigorously evaluate the
performance of generative models on CVTG tasks. Extensive experiments
demonstrate that our method surpasses state-of-the-art approaches.Summary
AI-Generated Summary