UM-Text: Un Modello Multimodale Unificato per la Comprensione delle Immagini
UM-Text: A Unified Multimodal Model for Image Understanding
January 13, 2026
Autori: Lichen Ma, Xiaolong Fu, Gaojing Zhou, Zipeng Guo, Ting Zhu, Yichun Liu, Yu Shi, Jason Li, Junshi Huang
cs.AI
Abstract
Con il rapido progresso della generazione di immagini, l'editing di testo visivo tramite istruzioni in linguaggio naturale ha ricevuto crescente attenzione. La sfida principale di questo compito è comprendere appieno l'istruzione e l'immagine di riferimento, generando così testo visivo stilisticamente coerente con l'immagine. I metodi precedenti spesso coinvolgono passaggi complessi per specificare contenuto e attributi del testo (come dimensione del carattere, colore e layout), senza considerare la coerenza stilistica con l'immagine di riferimento. Per affrontare ciò, proponiamo UM-Text, un modello multimodale unificato per la comprensione contestuale e l'editing di testo visivo tramite istruzioni naturali. Nello specifico, introduciamo un Modello di Linguaggio Visivo (VLM) per elaborare l'istruzione e l'immagine di riferimento, in modo che contenuto e layout del testo possano essere progettati meticolosamente in base alle informazioni contestuali. Per generare un'immagine di testo visivo accurata e armoniosa, proponiamo inoltre l'UM-Encoder per combinare gli embedding delle varie informazioni condizionali, dove la combinazione è configurata automaticamente dal VLM in base all'istruzione di input. Durante l'addestramento, proponiamo una perdita di consistenza regionale per fornire una supervisione più efficace per la generazione di glifi sia nello spazio latente che in RGB, e progettiamo una strategia di addestramento su tre fasi su misura per migliorare ulteriormente le prestazioni del modello. In aggiunta, contribuiamo con UM-DATA-200K, un dataset su larga scala di immagini di testo visivo in scenari diversificati per l'addestramento del modello. Risultati qualitativi e quantitativi estesi su molteplici benchmark pubblici dimostrano che il nostro metodo raggiunge prestazioni all'avanguardia.
English
With the rapid advancement of image generation, visual text editing using natural language instructions has received increasing attention. The main challenge of this task is to fully understand the instruction and reference image, and thus generate visual text that is style-consistent with the image. Previous methods often involve complex steps of specifying the text content and attributes, such as font size, color, and layout, without considering the stylistic consistency with the reference image. To address this, we propose UM-Text, a unified multimodal model for context understanding and visual text editing by natural language instructions. Specifically, we introduce a Visual Language Model (VLM) to process the instruction and reference image, so that the text content and layout can be elaborately designed according to the context information. To generate an accurate and harmonious visual text image, we further propose the UM-Encoder to combine the embeddings of various condition information, where the combination is automatically configured by VLM according to the input instruction. During training, we propose a regional consistency loss to offer more effective supervision for glyph generation on both latent and RGB space, and design a tailored three-stage training strategy to further enhance model performance. In addition, we contribute the UM-DATA-200K, a large-scale visual text image dataset on diverse scenes for model training. Extensive qualitative and quantitative results on multiple public benchmarks demonstrate that our method achieves state-of-the-art performance.