ChatPaper.aiChatPaper

UM-Text: Un Modelo Multimodal Unificado para la Comprensión de Imágenes

UM-Text: A Unified Multimodal Model for Image Understanding

January 13, 2026
Autores: Lichen Ma, Xiaolong Fu, Gaojing Zhou, Zipeng Guo, Ting Zhu, Yichun Liu, Yu Shi, Jason Li, Junshi Huang
cs.AI

Resumen

Con el rápido avance de la generación de imágenes, la edición de texto visual mediante instrucciones en lenguaje natural ha recibido una atención creciente. El principal desafío de esta tarea es comprender completamente la instrucción y la imagen de referencia y, por lo tanto, generar texto visual que sea coherente en estilo con la imagen. Los métodos anteriores a menudo implicaban pasos complejos para especificar el contenido del texto y sus atributos, como el tamaño de fuente, el color y el diseño, sin considerar la coherencia estilística con la imagen de referencia. Para abordar este problema, proponemos UM-Text, un modelo multimodal unificado para la comprensión del contexto y la edición de texto visual mediante instrucciones en lenguaje natural. Específicamente, introducimos un Modelo de Lenguaje Visual (VLM) para procesar la instrucción y la imagen de referencia, de modo que el contenido y el diseño del texto puedan elaborarse meticulosamente según la información contextual. Para generar una imagen de texto visual precisa y armoniosa, proponemos además el UM-Encoder para combinar los *embeddings* de diversas informaciones condicionantes, donde la combinación es configurada automáticamente por el VLM según la instrucción de entrada. Durante el entrenamiento, proponemos una pérdida por consistencia regional para ofrecer una supervisión más efectiva para la generación de glifos tanto en el espacio latente como en el RGB, y diseñamos una estrategia de entrenamiento en tres etapas específica para mejorar aún más el rendimiento del modelo. Adicionalmente, contribuimos con UM-DATA-200K, un conjunto de datos a gran escala de imágenes de texto visual en diversas escenas para el entrenamiento de modelos. Resultados cualitativos y cuantitativos exhaustivos en múltiples benchmarks públicos demuestran que nuestro método alcanza un rendimiento de vanguardia.
English
With the rapid advancement of image generation, visual text editing using natural language instructions has received increasing attention. The main challenge of this task is to fully understand the instruction and reference image, and thus generate visual text that is style-consistent with the image. Previous methods often involve complex steps of specifying the text content and attributes, such as font size, color, and layout, without considering the stylistic consistency with the reference image. To address this, we propose UM-Text, a unified multimodal model for context understanding and visual text editing by natural language instructions. Specifically, we introduce a Visual Language Model (VLM) to process the instruction and reference image, so that the text content and layout can be elaborately designed according to the context information. To generate an accurate and harmonious visual text image, we further propose the UM-Encoder to combine the embeddings of various condition information, where the combination is automatically configured by VLM according to the input instruction. During training, we propose a regional consistency loss to offer more effective supervision for glyph generation on both latent and RGB space, and design a tailored three-stage training strategy to further enhance model performance. In addition, we contribute the UM-DATA-200K, a large-scale visual text image dataset on diverse scenes for model training. Extensive qualitative and quantitative results on multiple public benchmarks demonstrate that our method achieves state-of-the-art performance.
PDF41January 15, 2026