Geração de Texto Visual na Natureza
Visual Text Generation in the Wild
July 19, 2024
Autores: Yuanzhi Zhu, Jiawei Liu, Feiyu Gao, Wenyu Liu, Xinggang Wang, Peng Wang, Fei Huang, Cong Yao, Zhibo Yang
cs.AI
Resumo
Recentemente, com os avanços rápidos dos modelos generativos, o campo da geração de texto visual testemunhou progressos significativos. No entanto, ainda é desafiador renderizar imagens de texto de alta qualidade em cenários do mundo real, uma vez que três critérios críticos devem ser atendidos: (1) Fidelidade: as imagens de texto geradas devem ser fotorrealistas e espera-se que os conteúdos sejam os mesmos especificados nas condições fornecidas; (2) Racionalidade: as regiões e conteúdos do texto gerado devem estar em conformidade com a cena; (3) Utilidade: as imagens de texto geradas podem facilitar tarefas relacionadas (por exemplo, detecção e reconhecimento de texto). Após investigação, descobrimos que os métodos existentes, sejam baseados em renderização ou difusão, dificilmente conseguem atender a todos esses aspectos simultaneamente, limitando sua faixa de aplicação. Portanto, propomos neste artigo um gerador de texto visual (denominado SceneVTG), que pode produzir imagens de texto de alta qualidade em ambientes naturais. Seguindo um paradigma de duas etapas, o SceneVTG aproveita um Modelo de Linguagem Multimodal Grande para recomendar regiões e conteúdos de texto razoáveis em várias escalas e níveis, que são usados por um modelo de difusão condicional como condições para gerar imagens de texto. Experimentos extensivos demonstram que o SceneVTG proposto supera significativamente os métodos tradicionais baseados em renderização e os métodos recentes baseados em difusão em termos de fidelidade e racionalidade. Além disso, as imagens geradas fornecem utilidade superior para tarefas envolvendo detecção e reconhecimento de texto. Código e conjuntos de dados estão disponíveis em AdvancedLiterateMachinery.
English
Recently, with the rapid advancements of generative models, the field of
visual text generation has witnessed significant progress. However, it is still
challenging to render high-quality text images in real-world scenarios, as
three critical criteria should be satisfied: (1) Fidelity: the generated text
images should be photo-realistic and the contents are expected to be the same
as specified in the given conditions; (2) Reasonability: the regions and
contents of the generated text should cohere with the scene; (3) Utility: the
generated text images can facilitate related tasks (e.g., text detection and
recognition). Upon investigation, we find that existing methods, either
rendering-based or diffusion-based, can hardly meet all these aspects
simultaneously, limiting their application range. Therefore, we propose in this
paper a visual text generator (termed SceneVTG), which can produce high-quality
text images in the wild. Following a two-stage paradigm, SceneVTG leverages a
Multimodal Large Language Model to recommend reasonable text regions and
contents across multiple scales and levels, which are used by a conditional
diffusion model as conditions to generate text images. Extensive experiments
demonstrate that the proposed SceneVTG significantly outperforms traditional
rendering-based methods and recent diffusion-based methods in terms of fidelity
and reasonability. Besides, the generated images provide superior utility for
tasks involving text detection and text recognition. Code and datasets are
available at AdvancedLiterateMachinery.