RepText: Renderização de Texto Visual via Replicação

Resumo

Embora os modelos contemporâneos de geração de texto para imagem tenham alcançado avanços notáveis na produção de imagens visualmente atraentes, sua capacidade de gerar elementos tipográficos precisos e flexíveis, especialmente em alfabetos não latinos, permanece limitada. Para abordar essas limitações, partimos de uma suposição ingênua de que a compreensão do texto é apenas uma condição suficiente para a renderização do texto, mas não uma condição necessária. Com base nisso, apresentamos o RepText, que visa capacitar modelos pré-treinados de geração de texto para imagem monolíngues com a capacidade de renderizar com precisão, ou mais precisamente, replicar, texto visual multilíngue em fontes especificadas pelo usuário, sem a necessidade de realmente compreendê-lo. Especificamente, adotamos a configuração do ControlNet e integramos adicionalmente glifos e posições de texto renderizado agnósticos ao idioma para permitir a geração de texto visual harmonizado, permitindo que os usuários personalizem o conteúdo do texto, a fonte e a posição conforme suas necessidades. Para melhorar a precisão, uma perda perceptual de texto é empregada junto com a perda de difusão. Além disso, para estabilizar o processo de renderização, na fase de inferência, inicializamos diretamente com latentes de glifos ruidosos em vez de inicialização aleatória, e adotamos máscaras de região para restringir a injeção de recursos apenas à região do texto, evitando a distorção do fundo. Realizamos extensos experimentos para verificar a eficácia do nosso RepText em relação aos trabalhos existentes, nossa abordagem supera os métodos de código aberto existentes e alcança resultados comparáveis aos modelos nativos multilíngues de código fechado. Para ser mais justo, também discutimos exaustivamente suas limitações no final.

English

Although contemporary text-to-image generation models have achieved remarkable breakthroughs in producing visually appealing images, their capacity to generate precise and flexible typographic elements, especially non-Latin alphabets, remains constrained. To address these limitations, we start from an naive assumption that text understanding is only a sufficient condition for text rendering, but not a necessary condition. Based on this, we present RepText, which aims to empower pre-trained monolingual text-to-image generation models with the ability to accurately render, or more precisely, replicate, multilingual visual text in user-specified fonts, without the need to really understand them. Specifically, we adopt the setting from ControlNet and additionally integrate language agnostic glyph and position of rendered text to enable generating harmonized visual text, allowing users to customize text content, font and position on their needs. To improve accuracy, a text perceptual loss is employed along with the diffusion loss. Furthermore, to stabilize rendering process, at the inference phase, we directly initialize with noisy glyph latent instead of random initialization, and adopt region masks to restrict the feature injection to only the text region to avoid distortion of the background. We conducted extensive experiments to verify the effectiveness of our RepText relative to existing works, our approach outperforms existing open-source methods and achieves comparable results to native multi-language closed-source models. To be more fair, we also exhaustively discuss its limitations in the end.

RepText: Renderização de Texto Visual via Replicação

RepText: Rendering Visual Text via Replicating

Resumo

Support