TextCrafter: Representación precisa de múltiples textos en escenas visuales complejas

Resumen

Este artículo explora la tarea de Generación de Texto Visual Complejo (CVTG, por sus siglas en inglés), la cual se centra en generar contenido textual intrincado distribuido en diversas regiones dentro de imágenes visuales. En CVTG, los modelos de generación de imágenes suelen producir texto visual distorsionado y borroso o omitir parte del texto visual. Para abordar estos desafíos, proponemos TextCrafter, un novedoso método de renderizado de texto visual múltiple. TextCrafter emplea una estrategia progresiva para descomponer el texto visual complejo en componentes distintos, asegurando una alineación robusta entre el contenido textual y su soporte visual. Además, incorpora un mecanismo de mejora de enfoque en tokens para amplificar la prominencia del texto visual durante el proceso de generación. TextCrafter aborda eficazmente los principales desafíos en las tareas de CVTG, como la confusión, omisión y borrosidad del texto. Asimismo, presentamos un nuevo conjunto de datos de referencia, CVTG-2K, diseñado para evaluar rigurosamente el rendimiento de los modelos generativos en tareas de CVTG. Experimentos exhaustivos demuestran que nuestro método supera a los enfoques más avanzados.

English

This paper explores the task of Complex Visual Text Generation (CVTG), which centers on generating intricate textual content distributed across diverse regions within visual images. In CVTG, image generation models often rendering distorted and blurred visual text or missing some visual text. To tackle these challenges, we propose TextCrafter, a novel multi-visual text rendering method. TextCrafter employs a progressive strategy to decompose complex visual text into distinct components while ensuring robust alignment between textual content and its visual carrier. Additionally, it incorporates a token focus enhancement mechanism to amplify the prominence of visual text during the generation process. TextCrafter effectively addresses key challenges in CVTG tasks, such as text confusion, omissions, and blurriness. Moreover, we present a new benchmark dataset, CVTG-2K, tailored to rigorously evaluate the performance of generative models on CVTG tasks. Extensive experiments demonstrate that our method surpasses state-of-the-art approaches.