ChatPaper.aiChatPaper

UM-Text: Унифицированная мультимодальная модель для понимания изображений

UM-Text: A Unified Multimodal Model for Image Understanding

January 13, 2026
Авторы: Lichen Ma, Xiaolong Fu, Gaojing Zhou, Zipeng Guo, Ting Zhu, Yichun Liu, Yu Shi, Jason Li, Junshi Huang
cs.AI

Аннотация

Благодаря быстрому прогрессу в области генерации изображений, визуальное редактирование текста с использованием инструкций на естественном языке привлекает все больше внимания. Основная задача заключается в полном понимании инструкции и исходного изображения для генерации визуального текста, стилистически согласованного с изображением. Предыдущие методы часто включали сложные этапы указания содержания текста и атрибутов, таких как размер шрифта, цвет и компоновка, без учета стилевой согласованности с исходным изображением. Для решения этой проблемы мы предлагаем UM-Text — унифицированную мультимодальную модель для контекстного понимания и визуального редактирования текста по инструкциям на естественном языке. В частности, мы внедряем визуальную языковую модель (VLM) для обработки инструкции и исходного изображения, что позволяет детально проектировать содержание текста и компоновку на основе контекстной информации. Для генерации точного и гармоничного изображения визуального текста мы дополнительно предлагаем UM-Encoder для объединения эмбеддингов различной условной информации, где комбинация автоматически настраивается VLM в соответствии с входной инструкцией. В процессе обучения мы предлагаем функцию потерь региональной согласованности для более эффективного контроля генерации глифов в латентном и RGB-пространстве и разрабатываем специальную трехэтапную стратегию обучения для дальнейшего повышения производительности модели. Кроме того, мы представляем UM-DATA-200K — масштабный набор данных изображений визуального текста в разнообразных сценах для обучения моделей. Многочисленные качественные и количественные результаты на нескольких публичных бенчмарках демонстрируют, что наш метод достигает передовых показателей.
English
With the rapid advancement of image generation, visual text editing using natural language instructions has received increasing attention. The main challenge of this task is to fully understand the instruction and reference image, and thus generate visual text that is style-consistent with the image. Previous methods often involve complex steps of specifying the text content and attributes, such as font size, color, and layout, without considering the stylistic consistency with the reference image. To address this, we propose UM-Text, a unified multimodal model for context understanding and visual text editing by natural language instructions. Specifically, we introduce a Visual Language Model (VLM) to process the instruction and reference image, so that the text content and layout can be elaborately designed according to the context information. To generate an accurate and harmonious visual text image, we further propose the UM-Encoder to combine the embeddings of various condition information, where the combination is automatically configured by VLM according to the input instruction. During training, we propose a regional consistency loss to offer more effective supervision for glyph generation on both latent and RGB space, and design a tailored three-stage training strategy to further enhance model performance. In addition, we contribute the UM-DATA-200K, a large-scale visual text image dataset on diverse scenes for model training. Extensive qualitative and quantitative results on multiple public benchmarks demonstrate that our method achieves state-of-the-art performance.
PDF41January 15, 2026