Переосмысление визуального генеративного моделирования UMM: Маскированное моделирование для эффективной предварительной обучения только на изображениях
Rethinking UMM Visual Generation: Masked Modeling for Efficient Image-Only Pre-training
March 17, 2026
Авторы: Peng Sun, Jun Xie, Tao Lin
cs.AI
Аннотация
Унифицированные мультимодальные модели (UMM) часто ограничены предварительным обучением их компонентов визуальной генерации, которое обычно опирается на неэффективные парадигмы и дефицитные высококачественные парные данные «текст-изображение». В данной работе мы систематически анализируем методы предварительного обучения для визуальной генерации в UMM и идентифицируем эти две проблемы как основные узкие места.
Для их решения мы предлагаем обучение UMM только на изображениях (IOMM) — ресурсоэффективную двухэтапную框架 обучения. На первом этапе компонент визуальной генерации предварительно обучается исключительно на большом количестве немаркированных данных, содержащих только изображения, что устраняет зависимость от парных данных на этой затратной стадии. На втором этапе модель дообучается с использованием смеси немаркированных изображений и небольшого отобранного набора пар «текст-изображение», что приводит к улучшению соответствия инструкциям и качества генерации.
Многочисленные эксперименты показывают, что IOMM не только повышает эффективность обучения, но и достигает наилучших на сегодняшний день (SOTA) результатов. Например, наша модель IOMM-B (3.6B) была обучена с нуля, используя всего около 1050 GPU-часов на H800 (причем подавляющее большинство — 1000 часов — было затрачено на эффективный этап предварительного обучения только на изображениях). Она демонстрирует показатели 0.89 на GenEval и 0.55 на WISE, превосходя сильные базовые модели, такие как BAGEL-7B (0.82 и 0.55) и BLIP3-o-4B (0.84 и 0.50).
Код доступен по адресу: https://github.com/LINs-lab/IOMM.
English
Unified Multimodal Models (UMMs) are often constrained by the pre-training of their visual generation components, which typically relies on inefficient paradigms and scarce, high-quality text-image paired data. In this paper, we systematically analyze pre-training recipes for UMM visual generation and identify these two issues as the major bottlenecks.
To address them, we propose Image-Only Training for UMMs (IOMM), a data-efficient two-stage training framework.
The first stage pre-trains the visual generative component exclusively using abundant unlabeled image-only data, thereby removing the dependency on paired data for this costly phase. The second stage fine-tunes the model using a mixture of unlabeled images and a small curated set of text-image pairs, leading to improved instruction alignment and generative quality.
Extensive experiments show that IOMM not only improves training efficiency but also achieves state-of-the-art (SOTA) performance.
For example, our IOMM-B (3.6B) model was trained from scratch using only sim 1050 H800 GPU hours (with the vast majority, 1000 hours, dedicated to the efficient image-only pre-training stage). It achieves 0.89 on GenEval and 0.55 on WISE--surpassing strong baselines such as BAGEL-7B (0.82 & 0.55) and BLIP3-o-4B (0.84 & 0.50).
Code is available https://github.com/LINs-lab/IOMM{https://github.com/LINs-lab/IOMM}.