ChatPaper.aiChatPaper

UM-Text: Ein einheitliches multimodales Modell für das Bildverständnis

UM-Text: A Unified Multimodal Model for Image Understanding

January 13, 2026
papers.authors: Lichen Ma, Xiaolong Fu, Gaojing Zhou, Zipeng Guo, Ting Zhu, Yichun Liu, Yu Shi, Jason Li, Junshi Huang
cs.AI

papers.abstract

Mit dem raschen Fortschritt in der Bildgenerierung hat die visuelle Textbearbeitung mittels natürlicher Sprachbefehle zunehmend an Bedeutung gewonnen. Die größte Herausforderung dieser Aufgabe besteht darin, die Anweisung und das Referenzbild vollständig zu verstehen und daraufhin einen visuellen Text zu erzeugen, der stilistisch mit dem Bild übereinstimmt. Bisherige Methoden umfassen oft komplexe Schritte zur Spezifikation von Textinhalt und -attributen wie Schriftgröße, Farbe und Layout, ohne die stilistische Konsistenz mit dem Referenzbild zu berücksichtigen. Um dieses Problem zu lösen, schlagen wir UM-Text vor – ein einheitliches multimodales Modell für Kontextverständnis und visuelle Textbearbeitung durch natürliche Sprachbefehle. Konkret führen wir ein Visuelles Sprachmodell (VLM) ein, das die Anweisung und das Referenzbild verarbeitet, um Textinhalt und Layout präzise an die Kontextinformationen anzupassen. Für die Generierung präziser und harmonischer visueller Textbilder schlagen wir zudem den UM-Encoder vor, der Einbettungen verschiedener Konditionsinformationen kombiniert – wobei die Kombination automatisch durch das VLM basierend auf der Eingabeanweisung konfiguriert wird. Während des Trainings führen wir einen regionalen Konsistenzverlust ein, um eine effektivere Überwachung der Glyphengenerierung im latenten und RGB-Raum zu ermöglichen, und entwerfen eine maßgeschneiderte Dreistufen-Trainingsstrategie zur weiteren Steigerung der Modellleistung. Zusätzlich stellen wir UM-DATA-200K bereit, einen umfangreichen Datensatz visueller Textbilder aus diversen Szenarien für das Modelltraining. Umfangreiche qualitative und quantitative Ergebnisse auf mehreren öffentlichen Benchmarks belegen, dass unsere Methode state-of-the-art Leistung erzielt.
English
With the rapid advancement of image generation, visual text editing using natural language instructions has received increasing attention. The main challenge of this task is to fully understand the instruction and reference image, and thus generate visual text that is style-consistent with the image. Previous methods often involve complex steps of specifying the text content and attributes, such as font size, color, and layout, without considering the stylistic consistency with the reference image. To address this, we propose UM-Text, a unified multimodal model for context understanding and visual text editing by natural language instructions. Specifically, we introduce a Visual Language Model (VLM) to process the instruction and reference image, so that the text content and layout can be elaborately designed according to the context information. To generate an accurate and harmonious visual text image, we further propose the UM-Encoder to combine the embeddings of various condition information, where the combination is automatically configured by VLM according to the input instruction. During training, we propose a regional consistency loss to offer more effective supervision for glyph generation on both latent and RGB space, and design a tailored three-stage training strategy to further enhance model performance. In addition, we contribute the UM-DATA-200K, a large-scale visual text image dataset on diverse scenes for model training. Extensive qualitative and quantitative results on multiple public benchmarks demonstrate that our method achieves state-of-the-art performance.
PDF41January 15, 2026