TextCrafter: Representación precisa de múltiples textos en escenas visuales complejas
TextCrafter: Accurately Rendering Multiple Texts in Complex Visual Scenes
March 30, 2025
Autores: Nikai Du, Zhennan Chen, Zhizhou Chen, Shan Gao, Xi Chen, Zhengkai Jiang, Jian Yang, Ying Tai
cs.AI
Resumen
Este artículo explora la tarea de Generación de Texto Visual Complejo (CVTG, por sus siglas en inglés), la cual se centra en generar contenido textual intrincado distribuido en diversas regiones dentro de imágenes visuales. En CVTG, los modelos de generación de imágenes suelen producir texto visual distorsionado y borroso o omitir parte del texto visual. Para abordar estos desafíos, proponemos TextCrafter, un novedoso método de renderizado de texto visual múltiple. TextCrafter emplea una estrategia progresiva para descomponer el texto visual complejo en componentes distintos, asegurando una alineación robusta entre el contenido textual y su soporte visual. Además, incorpora un mecanismo de mejora de enfoque en tokens para amplificar la prominencia del texto visual durante el proceso de generación. TextCrafter aborda eficazmente los principales desafíos en las tareas de CVTG, como la confusión, omisión y borrosidad del texto. Asimismo, presentamos un nuevo conjunto de datos de referencia, CVTG-2K, diseñado para evaluar rigurosamente el rendimiento de los modelos generativos en tareas de CVTG. Experimentos exhaustivos demuestran que nuestro método supera a los enfoques más avanzados.
English
This paper explores the task of Complex Visual Text Generation (CVTG), which
centers on generating intricate textual content distributed across diverse
regions within visual images. In CVTG, image generation models often rendering
distorted and blurred visual text or missing some visual text. To tackle these
challenges, we propose TextCrafter, a novel multi-visual text rendering method.
TextCrafter employs a progressive strategy to decompose complex visual text
into distinct components while ensuring robust alignment between textual
content and its visual carrier. Additionally, it incorporates a token focus
enhancement mechanism to amplify the prominence of visual text during the
generation process. TextCrafter effectively addresses key challenges in CVTG
tasks, such as text confusion, omissions, and blurriness. Moreover, we present
a new benchmark dataset, CVTG-2K, tailored to rigorously evaluate the
performance of generative models on CVTG tasks. Extensive experiments
demonstrate that our method surpasses state-of-the-art approaches.Summary
AI-Generated Summary