TextCrafter: Renderização Precisa de Múltiplos Textos em Cenas Visuais Complexas
TextCrafter: Accurately Rendering Multiple Texts in Complex Visual Scenes
March 30, 2025
Autores: Nikai Du, Zhennan Chen, Zhizhou Chen, Shan Gao, Xi Chen, Zhengkai Jiang, Jian Yang, Ying Tai
cs.AI
Resumo
Este artigo explora a tarefa de Geração de Texto Visual Complexo (CVTG, na sigla em inglês), que se concentra na criação de conteúdo textual intrincado distribuído em diversas regiões dentro de imagens visuais. No CVTG, os modelos de geração de imagens frequentemente produzem textos visuais distorcidos e borrados ou omitem alguns textos visuais. Para enfrentar esses desafios, propomos o TextCrafter, um novo método de renderização de múltiplos textos visuais. O TextCrafter emprega uma estratégia progressiva para decompor textos visuais complexos em componentes distintos, garantindo um alinhamento robusto entre o conteúdo textual e seu suporte visual. Além disso, ele incorpora um mecanismo de aprimoramento de foco em tokens para ampliar a proeminência do texto visual durante o processo de geração. O TextCrafter aborda efetivamente desafios-chave em tarefas de CVTG, como confusão, omissões e borrões no texto. Adicionalmente, apresentamos um novo conjunto de dados de referência, o CVTG-2K, projetado para avaliar rigorosamente o desempenho de modelos generativos em tarefas de CVTG. Experimentos extensivos demonstram que nosso método supera abordagens state-of-the-art.
English
This paper explores the task of Complex Visual Text Generation (CVTG), which
centers on generating intricate textual content distributed across diverse
regions within visual images. In CVTG, image generation models often rendering
distorted and blurred visual text or missing some visual text. To tackle these
challenges, we propose TextCrafter, a novel multi-visual text rendering method.
TextCrafter employs a progressive strategy to decompose complex visual text
into distinct components while ensuring robust alignment between textual
content and its visual carrier. Additionally, it incorporates a token focus
enhancement mechanism to amplify the prominence of visual text during the
generation process. TextCrafter effectively addresses key challenges in CVTG
tasks, such as text confusion, omissions, and blurriness. Moreover, we present
a new benchmark dataset, CVTG-2K, tailored to rigorously evaluate the
performance of generative models on CVTG tasks. Extensive experiments
demonstrate that our method surpasses state-of-the-art approaches.Summary
AI-Generated Summary