UM-Text: 이미지 이해를 위한 통합 멀티모달 모델
UM-Text: A Unified Multimodal Model for Image Understanding
January 13, 2026
저자: Lichen Ma, Xiaolong Fu, Gaojing Zhou, Zipeng Guo, Ting Zhu, Yichun Liu, Yu Shi, Jason Li, Junshi Huang
cs.AI
초록
이미지 생성 기술의 급속한 발전과 함께 자연어 명령어를 이용한 시각적 텍스트 편집이 점차 주목받고 있다. 이 과제의 주요 난제는 명령어와 참조 이미지를 완전히 이해하여 이미지와 스타일 일관성이 있는 시각적 텍스트를 생성하는 것이다. 기존 방법들은 주로 텍스트 내용과 글꼴 크기, 색상, 레이아웃 등의 속성을 지정하는 복잡한 단계를 수반하며, 참조 이미지와의 스타일 일관성을 고려하지 않는 경우가 많았다. 이를 해결하기 위해 본 논문에서는 자연어 명령어에 의한 맥락 이해와 시각적 텍스트 편집을 위한 통합 멀티모달 모델인 UM-Text를 제안한다. 구체적으로, 시각 언어 모델(VLM)을 도입하여 명령어와 참조 이미지를 처리함으로써 맥락 정보에 따라 텍스트 내용과 레이아웃을 정교하게 설계할 수 있도록 한다. 정확하고 조화로운 시각적 텍스트 이미지를 생성하기 위해 다양한 조건 정보의 임베딩을 결합하는 UM-인코더를 추가로 제안하며, 이 결합 방식은 VLM이 입력 명령어에 따라 자동으로 구성한다. 학습 과정에서는 잠재 공간과 RGB 공간 모두에서 글리프 생성에 더 효과적인 감독을 제공하기 위한 지역 일관성 손실을 제안하고, 모델 성능을 추가로 향상시키기 위해 맞춤형 3단계 학습 전략을 설계한다. 또한 모델 학습을 위해 다양한 장면의 대규모 시각적 텍스트 이미지 데이터셋인 UM-DATA-200K를 구축하였다. 여러 공개 벤치마크에서 수행한 포괄적인 정성 및 정량적 실험 결과, 우리 방법이 최첨단 성능을 달성함을 입증한다.
English
With the rapid advancement of image generation, visual text editing using natural language instructions has received increasing attention. The main challenge of this task is to fully understand the instruction and reference image, and thus generate visual text that is style-consistent with the image. Previous methods often involve complex steps of specifying the text content and attributes, such as font size, color, and layout, without considering the stylistic consistency with the reference image. To address this, we propose UM-Text, a unified multimodal model for context understanding and visual text editing by natural language instructions. Specifically, we introduce a Visual Language Model (VLM) to process the instruction and reference image, so that the text content and layout can be elaborately designed according to the context information. To generate an accurate and harmonious visual text image, we further propose the UM-Encoder to combine the embeddings of various condition information, where the combination is automatically configured by VLM according to the input instruction. During training, we propose a regional consistency loss to offer more effective supervision for glyph generation on both latent and RGB space, and design a tailored three-stage training strategy to further enhance model performance. In addition, we contribute the UM-DATA-200K, a large-scale visual text image dataset on diverse scenes for model training. Extensive qualitative and quantitative results on multiple public benchmarks demonstrate that our method achieves state-of-the-art performance.