Geração de Texto Visual na Natureza

Resumo

Recentemente, com os avanços rápidos dos modelos generativos, o campo da geração de texto visual testemunhou progressos significativos. No entanto, ainda é desafiador renderizar imagens de texto de alta qualidade em cenários do mundo real, uma vez que três critérios críticos devem ser atendidos: (1) Fidelidade: as imagens de texto geradas devem ser fotorrealistas e espera-se que os conteúdos sejam os mesmos especificados nas condições fornecidas; (2) Racionalidade: as regiões e conteúdos do texto gerado devem estar em conformidade com a cena; (3) Utilidade: as imagens de texto geradas podem facilitar tarefas relacionadas (por exemplo, detecção e reconhecimento de texto). Após investigação, descobrimos que os métodos existentes, sejam baseados em renderização ou difusão, dificilmente conseguem atender a todos esses aspectos simultaneamente, limitando sua faixa de aplicação. Portanto, propomos neste artigo um gerador de texto visual (denominado SceneVTG), que pode produzir imagens de texto de alta qualidade em ambientes naturais. Seguindo um paradigma de duas etapas, o SceneVTG aproveita um Modelo de Linguagem Multimodal Grande para recomendar regiões e conteúdos de texto razoáveis em várias escalas e níveis, que são usados por um modelo de difusão condicional como condições para gerar imagens de texto. Experimentos extensivos demonstram que o SceneVTG proposto supera significativamente os métodos tradicionais baseados em renderização e os métodos recentes baseados em difusão em termos de fidelidade e racionalidade. Além disso, as imagens geradas fornecem utilidade superior para tarefas envolvendo detecção e reconhecimento de texto. Código e conjuntos de dados estão disponíveis em AdvancedLiterateMachinery.

English

Recently, with the rapid advancements of generative models, the field of visual text generation has witnessed significant progress. However, it is still challenging to render high-quality text images in real-world scenarios, as three critical criteria should be satisfied: (1) Fidelity: the generated text images should be photo-realistic and the contents are expected to be the same as specified in the given conditions; (2) Reasonability: the regions and contents of the generated text should cohere with the scene; (3) Utility: the generated text images can facilitate related tasks (e.g., text detection and recognition). Upon investigation, we find that existing methods, either rendering-based or diffusion-based, can hardly meet all these aspects simultaneously, limiting their application range. Therefore, we propose in this paper a visual text generator (termed SceneVTG), which can produce high-quality text images in the wild. Following a two-stage paradigm, SceneVTG leverages a Multimodal Large Language Model to recommend reasonable text regions and contents across multiple scales and levels, which are used by a conditional diffusion model as conditions to generate text images. Extensive experiments demonstrate that the proposed SceneVTG significantly outperforms traditional rendering-based methods and recent diffusion-based methods in terms of fidelity and reasonability. Besides, the generated images provide superior utility for tasks involving text detection and text recognition. Code and datasets are available at AdvancedLiterateMachinery.

Geração de Texto Visual na Natureza

Visual Text Generation in the Wild

Resumo

Support