ChatPaper.aiChatPaper

Heroverdenken van UMM Visuele Generatie: Gemaskeerde Modellering voor Efficiënte Pre-training met Alleen Beelden

Rethinking UMM Visual Generation: Masked Modeling for Efficient Image-Only Pre-training

March 17, 2026
Auteurs: Peng Sun, Jun Xie, Tao Lin
cs.AI

Samenvatting

Unified Multimodal Models (UMM's) worden vaak beperkt door de voorafgaande training van hun visuele generatiecomponenten, die doorgaans steunt op inefficiënte paradigma's en schaarse, hoogwaardige tekst-beeldgepaarde data. In dit artikel analyseren we systematisch de trainingsrecepten voor UMM-visuele generatie en identificeren we deze twee problemen als de belangrijkste knelpunten. Om deze aan te pakken, stellen we Image-Only Training for UMMs (IOMM) voor, een data-efficiënt tweefasen-trainingsraamwerk. De eerste fase traint de visuele generatiecomponent uitsluitend vooraf met behulp van overvloedige ongelabelde, alleen-beeld data, waardoor de afhankelijkheid van gepaarde data voor deze kostbare fase wordt weggenomen. De tweede fase fine-tunt het model met een mix van ongelabelde beelden en een kleine, gecureerde set tekst-beeldparen, wat leidt tot verbeterde instructie-alignering en generatieve kwaliteit. Uitgebreide experimenten tonen aan dat IOMM niet alleen de trainingsefficiëntie verbetert, maar ook state-of-the-art (SOTA) prestaties bereikt. Zo werd ons IOMM-B (3.6B) model vanaf nul getraind met slechts ∼1050 H800 GPU-uren (waarvan de overgrote meerderheid, 1000 uur, besteed werd aan de efficiënte alleen-beeld pre-trainingfase). Het behaalt 0.89 op GenEval en 0.55 op WISE – wat sterke baselines zoals BAGEL-7B (0.82 & 0.55) en BLIP3-o-4B (0.84 & 0.50) overtreft. Code is beschikbaar op https://github.com/LINs-lab/IOMM.
English
Unified Multimodal Models (UMMs) are often constrained by the pre-training of their visual generation components, which typically relies on inefficient paradigms and scarce, high-quality text-image paired data. In this paper, we systematically analyze pre-training recipes for UMM visual generation and identify these two issues as the major bottlenecks. To address them, we propose Image-Only Training for UMMs (IOMM), a data-efficient two-stage training framework. The first stage pre-trains the visual generative component exclusively using abundant unlabeled image-only data, thereby removing the dependency on paired data for this costly phase. The second stage fine-tunes the model using a mixture of unlabeled images and a small curated set of text-image pairs, leading to improved instruction alignment and generative quality. Extensive experiments show that IOMM not only improves training efficiency but also achieves state-of-the-art (SOTA) performance. For example, our IOMM-B (3.6B) model was trained from scratch using only sim 1050 H800 GPU hours (with the vast majority, 1000 hours, dedicated to the efficient image-only pre-training stage). It achieves 0.89 on GenEval and 0.55 on WISE--surpassing strong baselines such as BAGEL-7B (0.82 & 0.55) and BLIP3-o-4B (0.84 & 0.50). Code is available https://github.com/LINs-lab/IOMM{https://github.com/LINs-lab/IOMM}.
PDF272March 19, 2026