UM-Text: Um Modelo Multimodal Unificado para Compreensão de Imagens

Resumo

Com o rápido avanço da geração de imagens, a edição de texto visual usando instruções em linguagem natural tem recebido atenção crescente. O principal desafio desta tarefa é compreender totalmente a instrução e a imagem de referência e, assim, gerar texto visual que seja estilisticamente consistente com a imagem. Métodos anteriores frequentemente envolvem etapas complexas de especificação do conteúdo do texto e seus atributos, como tamanho da fonte, cor e layout, sem considerar a consistência estilística com a imagem de referência. Para resolver isso, propomos o UM-Text, um modelo multimodal unificado para compreensão de contexto e edição de texto visual por meio de instruções em linguagem natural. Especificamente, introduzimos um Modelo de Linguagem Visual (VLM) para processar a instrução e a imagem de referência, de modo que o conteúdo e o layout do texto possam ser elaboradamente projetados de acordo com as informações contextuais. Para gerar uma imagem de texto visual precisa e harmoniosa, propomos ainda o UM-Encoder para combinar as incorporações de várias informações de condição, onde a combinação é configurada automaticamente pelo VLM de acordo com a instrução de entrada. Durante o treinamento, propomos uma função de perda por consistência regional para oferecer uma supervisão mais eficaz para a geração de glifos tanto no espaço latente quanto no espaço RGB, e projetamos uma estratégia de treinamento em três estágios sob medida para melhorar ainda mais o desempenho do modelo. Além disso, contribuímos com o UM-DATA-200K, um grande conjunto de dados de imagens de texto visual em diversas cenas para o treinamento do modelo. Resultados qualitativos e quantitativos extensivos em vários benchmarks públicos demonstram que nosso método alcança desempenho de ponta.

English

With the rapid advancement of image generation, visual text editing using natural language instructions has received increasing attention. The main challenge of this task is to fully understand the instruction and reference image, and thus generate visual text that is style-consistent with the image. Previous methods often involve complex steps of specifying the text content and attributes, such as font size, color, and layout, without considering the stylistic consistency with the reference image. To address this, we propose UM-Text, a unified multimodal model for context understanding and visual text editing by natural language instructions. Specifically, we introduce a Visual Language Model (VLM) to process the instruction and reference image, so that the text content and layout can be elaborately designed according to the context information. To generate an accurate and harmonious visual text image, we further propose the UM-Encoder to combine the embeddings of various condition information, where the combination is automatically configured by VLM according to the input instruction. During training, we propose a regional consistency loss to offer more effective supervision for glyph generation on both latent and RGB space, and design a tailored three-stage training strategy to further enhance model performance. In addition, we contribute the UM-DATA-200K, a large-scale visual text image dataset on diverse scenes for model training. Extensive qualitative and quantitative results on multiple public benchmarks demonstrate that our method achieves state-of-the-art performance.

UM-Text: Um Modelo Multimodal Unificado para Compreensão de Imagens

UM-Text: A Unified Multimodal Model for Image Understanding

Resumo

Support