UM-Text : Un modèle multimodal unifié pour la compréhension d'images
UM-Text: A Unified Multimodal Model for Image Understanding
January 13, 2026
papers.authors: Lichen Ma, Xiaolong Fu, Gaojing Zhou, Zipeng Guo, Ting Zhu, Yichun Liu, Yu Shi, Jason Li, Junshi Huang
cs.AI
papers.abstract
Avec les progrès rapides de la génération d'images, l'édition de texte visuel à l'aide d'instructions en langage naturel suscite une attention croissante. Le principal défi de cette tâche est de comprendre pleinement l'instruction et l'image de référence pour générer un texte visuel stylistiquement cohérent avec l'image. Les méthodes antérieures impliquent souvent des étapes complexes de spécification du contenu textuel et des attributs (taille de police, couleur, mise en page) sans considérer la cohérence stylistique avec l'image de référence. Pour y remédier, nous proposons UM-Text, un modèle multimodal unifié pour la compréhension contextuelle et l'édition de texte visuel par instructions en langage naturel. Spécifiquement, nous introduisons un modèle visio-linguistique (VLM) pour traiter l'instruction et l'image de référence, permettant de concevoir méticuleusement le contenu textuel et la mise en page selon le contexte informationnel. Pour générer une image textuelle visuelle précise et harmonieuse, nous proposons en outre l'UM-Encodeur pour combiner les embeddings des diverses informations conditionnelles, cette combinaison étant configurée automatiquement par le VLM selon l'instruction d'entrée. Durant l'entraînement, nous proposons une perte de cohérence régionale pour offrir une supervision plus efficace de la génération de glyphes dans les espaces latent et RVB, et concevons une stratégie d'entraînement en trois étapes sur mesure pour améliorer davantage les performances du modèle. De plus, nous contribuons avec UM-DATA-200K, un vaste jeu de données d'images textuelles visuelles couvrant des scènes diversifiées pour l'entraînement des modèles. Des résultats qualitatifs et quantitatifs approfondis sur plusieurs benchmarks publics démontrent que notre méthode atteint des performances à l'état de l'art.
English
With the rapid advancement of image generation, visual text editing using natural language instructions has received increasing attention. The main challenge of this task is to fully understand the instruction and reference image, and thus generate visual text that is style-consistent with the image. Previous methods often involve complex steps of specifying the text content and attributes, such as font size, color, and layout, without considering the stylistic consistency with the reference image. To address this, we propose UM-Text, a unified multimodal model for context understanding and visual text editing by natural language instructions. Specifically, we introduce a Visual Language Model (VLM) to process the instruction and reference image, so that the text content and layout can be elaborately designed according to the context information. To generate an accurate and harmonious visual text image, we further propose the UM-Encoder to combine the embeddings of various condition information, where the combination is automatically configured by VLM according to the input instruction. During training, we propose a regional consistency loss to offer more effective supervision for glyph generation on both latent and RGB space, and design a tailored three-stage training strategy to further enhance model performance. In addition, we contribute the UM-DATA-200K, a large-scale visual text image dataset on diverse scenes for model training. Extensive qualitative and quantitative results on multiple public benchmarks demonstrate that our method achieves state-of-the-art performance.