Rethinking UMM Visual Generation: Masked Modeling für effizientes Pre-training mit ausschließlich Bilddaten
Rethinking UMM Visual Generation: Masked Modeling for Efficient Image-Only Pre-training
March 17, 2026
Autoren: Peng Sun, Jun Xie, Tao Lin
cs.AI
Zusammenfassung
Einheitliche multimodale Modelle (UMMs) werden häufig durch das Pre-Training ihrer visuellen Generierungskomponenten eingeschränkt, das typischerweise auf ineffizienten Paradigmen und knappen, hochwertigen Text-Bild-Paaren basiert. In diesem Papier analysieren wir systematisch Pre-Training-Methoden für die visuelle Generierung in UMMs und identifizieren diese beiden Probleme als die Hauptengpässe.
Um diese zu lösen, schlagen wir Image-Only Training for UMMs (IOMM) vor, einen dateneffizienten Zwei-Stufen-Trainingsansatz. In der ersten Stufe wird die visuelle Generierungskomponente ausschließlich mit umfangreichen, ungelabelten Bilddaten vortrainiert, wodurch die Abhängigkeit von gepaarten Daten für diese kostenintensive Phase entfällt. Die zweite Stufe feintunt das Modell mit einer Mischung aus ungelabelten Bildern und einem kleinen, kuratierten Satz von Text-Bild-Paaren, was zu einer verbesserten Befolgung von Anweisungen und generativer Qualität führt.
Umfangreiche Experimente zeigen, dass IOMM nicht nur die Trainingseffizienz steigert, sondern auch State-of-the-Art (SOTA) Leistung erzielt. Beispielsweise wurde unser IOMM-B (3,6B) Modell von Grund auf mit nur ca. 1050 H800 GPU-Stunden trainiert (wovon der Großteil, 1000 Stunden, auf die effiziente Image-Only Pre-Training-Phase entfiel). Es erzielt 0,89 auf GenEval und 0,55 auf WISE – und übertrifft damit starke Baseline-Modelle wie BAGEL-7B (0,82 & 0,55) und BLIP3-o-4B (0,84 & 0,50).
Code ist verfügbar unter https://github.com/LINs-lab/IOMM.
English
Unified Multimodal Models (UMMs) are often constrained by the pre-training of their visual generation components, which typically relies on inefficient paradigms and scarce, high-quality text-image paired data. In this paper, we systematically analyze pre-training recipes for UMM visual generation and identify these two issues as the major bottlenecks.
To address them, we propose Image-Only Training for UMMs (IOMM), a data-efficient two-stage training framework.
The first stage pre-trains the visual generative component exclusively using abundant unlabeled image-only data, thereby removing the dependency on paired data for this costly phase. The second stage fine-tunes the model using a mixture of unlabeled images and a small curated set of text-image pairs, leading to improved instruction alignment and generative quality.
Extensive experiments show that IOMM not only improves training efficiency but also achieves state-of-the-art (SOTA) performance.
For example, our IOMM-B (3.6B) model was trained from scratch using only sim 1050 H800 GPU hours (with the vast majority, 1000 hours, dedicated to the efficient image-only pre-training stage). It achieves 0.89 on GenEval and 0.55 on WISE--surpassing strong baselines such as BAGEL-7B (0.82 & 0.55) and BLIP3-o-4B (0.84 & 0.50).
Code is available https://github.com/LINs-lab/IOMM{https://github.com/LINs-lab/IOMM}.