ChatPaper.aiChatPaper

UM-Text: 画像理解のための統合マルチモーダルモデル

UM-Text: A Unified Multimodal Model for Image Understanding

January 13, 2026
著者: Lichen Ma, Xiaolong Fu, Gaojing Zhou, Zipeng Guo, Ting Zhu, Yichun Liu, Yu Shi, Jason Li, Junshi Huang
cs.AI

要旨

画像生成技術の急速な進歩に伴い、自然言語指示を用いた視覚的テキスト編集への関心が高まっている。このタスクの主な課題は、指示と参照画像を完全に理解し、画像とスタイルが整合した視覚的テキストを生成することである。従来手法では、テキスト内容やフォントサイズ、色、レイアウトなどの属性を指定する複雑な手順が多く、参照画像とのスタイル一貫性が考慮されていなかった。この問題に対処するため、我々は文脈理解と自然言語指示による視覚的テキスト編集を統合的に行うマルチモーダルモデルUM-Textを提案する。具体的には、視覚言語モデル(VLM)を導入して指示と参照画像を処理し、文脈情報に基づいてテキスト内容とレイアウトを精密に設計する。正確で調和の取れた視覚的テキスト画像を生成するため、各種条件情報の埋め込みを統合するUM-Encoderをさらに提案し、その組み合わせはVLMが入力指示に応じて自動設定する。訓練時には、潜在空間とRGB空間の両方でグリフ生成により効果的な監督を提供する領域一貫性損失を提案し、モデル性能をさらに向上させるため独自の3段階訓練戦略を設計する。加えて、多様なシーンにおける大規模視覚的テキスト画像データセットUM-DATA-200Kを構築し、モデル訓練に貢献する。複数の公開ベンチマークにおける広範な定性的・定量的評価により、本手法が最先端の性能を達成することを実証する。
English
With the rapid advancement of image generation, visual text editing using natural language instructions has received increasing attention. The main challenge of this task is to fully understand the instruction and reference image, and thus generate visual text that is style-consistent with the image. Previous methods often involve complex steps of specifying the text content and attributes, such as font size, color, and layout, without considering the stylistic consistency with the reference image. To address this, we propose UM-Text, a unified multimodal model for context understanding and visual text editing by natural language instructions. Specifically, we introduce a Visual Language Model (VLM) to process the instruction and reference image, so that the text content and layout can be elaborately designed according to the context information. To generate an accurate and harmonious visual text image, we further propose the UM-Encoder to combine the embeddings of various condition information, where the combination is automatically configured by VLM according to the input instruction. During training, we propose a regional consistency loss to offer more effective supervision for glyph generation on both latent and RGB space, and design a tailored three-stage training strategy to further enhance model performance. In addition, we contribute the UM-DATA-200K, a large-scale visual text image dataset on diverse scenes for model training. Extensive qualitative and quantitative results on multiple public benchmarks demonstrate that our method achieves state-of-the-art performance.
PDF41January 15, 2026