UM-Text: Een Geïntegreerd Multimodaal Model voor Beeldbegrip
UM-Text: A Unified Multimodal Model for Image Understanding
January 13, 2026
Auteurs: Lichen Ma, Xiaolong Fu, Gaojing Zhou, Zipeng Guo, Ting Zhu, Yichun Liu, Yu Shi, Jason Li, Junshi Huang
cs.AI
Samenvatting
Met de snelle vooruitgang in beeldgeneratie krijgt visuele tekstbewerking met behulp van natuurlijke taal-instructies steeds meer aandacht. De grootste uitdaging bij deze taak is het volledig begrijpen van de instructie en referentieafbeelding, om zo visuele tekst te genereren die stijlconsistent is met de afbeelding. Eerdere methoden omvatten vaak complexe stappen voor het specificeren van tekstinhoud en attributen zoals lettergrootte, kleur en lay-out, zonder rekening te houden met de stilistische consistentie met de referentieafbeelding. Om dit aan te pakken, stellen we UM-Text voor, een uniform multimodaal model voor contextbegrip en visuele tekstbewerking via natuurlijke taal-instructies. Concreet introduceren we een Visueel Taalmodel (VLM) om de instructie en referentieafbeelding te verwerken, zodat de tekstinhoud en lay-out nauwkeurig kunnen worden ontworpen op basis van de contextinformatie. Om een accurate en harmonieuze visuele tekstafbeelding te genereren, stellen we verder de UM-Encoder voor om de embedding van diverse conditie-informatie te combineren, waarbij de combinatie automatisch door het VLM wordt geconfigureerd op basis van de invoerinstructie. Tijdens de training introduceren we een regional consistency loss voor effectievere supervisie van glyph-generatie in zowel latente als RGB-ruimte, en ontwerpen we een op maat gemaakte driefasen-trainingsstrategie om de modelprestaties verder te verbeteren. Daarnaast dragen we UM-DATA-200K bij, een grootschalige dataset van visuele tekstafbeeldingen in diverse scènes voor modeltraining. Uitgebreide kwalitatieve en kwantitatieve resultaten op meerdere publieke benchmarks tonen aan dat onze methode state-of-the-art prestaties bereikt.
English
With the rapid advancement of image generation, visual text editing using natural language instructions has received increasing attention. The main challenge of this task is to fully understand the instruction and reference image, and thus generate visual text that is style-consistent with the image. Previous methods often involve complex steps of specifying the text content and attributes, such as font size, color, and layout, without considering the stylistic consistency with the reference image. To address this, we propose UM-Text, a unified multimodal model for context understanding and visual text editing by natural language instructions. Specifically, we introduce a Visual Language Model (VLM) to process the instruction and reference image, so that the text content and layout can be elaborately designed according to the context information. To generate an accurate and harmonious visual text image, we further propose the UM-Encoder to combine the embeddings of various condition information, where the combination is automatically configured by VLM according to the input instruction. During training, we propose a regional consistency loss to offer more effective supervision for glyph generation on both latent and RGB space, and design a tailored three-stage training strategy to further enhance model performance. In addition, we contribute the UM-DATA-200K, a large-scale visual text image dataset on diverse scenes for model training. Extensive qualitative and quantitative results on multiple public benchmarks demonstrate that our method achieves state-of-the-art performance.