Heroverdenken van UMM Visuele Generatie: Gemaskeerde Modellering voor Efficiënte Pre-training met Alleen Beelden

Samenvatting

Unified Multimodal Models (UMM's) worden vaak beperkt door de voorafgaande training van hun visuele generatiecomponenten, die doorgaans steunt op inefficiënte paradigma's en schaarse, hoogwaardige tekst-beeldgepaarde data. In dit artikel analyseren we systematisch de trainingsrecepten voor UMM-visuele generatie en identificeren we deze twee problemen als de belangrijkste knelpunten. Om deze aan te pakken, stellen we Image-Only Training for UMMs (IOMM) voor, een data-efficiënt tweefasen-trainingsraamwerk. De eerste fase traint de visuele generatiecomponent uitsluitend vooraf met behulp van overvloedige ongelabelde, alleen-beeld data, waardoor de afhankelijkheid van gepaarde data voor deze kostbare fase wordt weggenomen. De tweede fase fine-tunt het model met een mix van ongelabelde beelden en een kleine, gecureerde set tekst-beeldparen, wat leidt tot verbeterde instructie-alignering en generatieve kwaliteit. Uitgebreide experimenten tonen aan dat IOMM niet alleen de trainingsefficiëntie verbetert, maar ook state-of-the-art (SOTA) prestaties bereikt. Zo werd ons IOMM-B (3.6B) model vanaf nul getraind met slechts ∼1050 H800 GPU-uren (waarvan de overgrote meerderheid, 1000 uur, besteed werd aan de efficiënte alleen-beeld pre-trainingfase). Het behaalt 0.89 op GenEval en 0.55 op WISE – wat sterke baselines zoals BAGEL-7B (0.82 & 0.55) en BLIP3-o-4B (0.84 & 0.50) overtreft. Code is beschikbaar op https://github.com/LINs-lab/IOMM.

English

Unified Multimodal Models (UMMs) are often constrained by the pre-training of their visual generation components, which typically relies on inefficient paradigms and scarce, high-quality text-image paired data. In this paper, we systematically analyze pre-training recipes for UMM visual generation and identify these two issues as the major bottlenecks. To address them, we propose Image-Only Training for UMMs (IOMM), a data-efficient two-stage training framework. The first stage pre-trains the visual generative component exclusively using abundant unlabeled image-only data, thereby removing the dependency on paired data for this costly phase. The second stage fine-tunes the model using a mixture of unlabeled images and a small curated set of text-image pairs, leading to improved instruction alignment and generative quality. Extensive experiments show that IOMM not only improves training efficiency but also achieves state-of-the-art (SOTA) performance. For example, our IOMM-B (3.6B) model was trained from scratch using only sim 1050 H800 GPU hours (with the vast majority, 1000 hours, dedicated to the efficient image-only pre-training stage). It achieves 0.89 on GenEval and 0.55 on WISE--surpassing strong baselines such as BAGEL-7B (0.82 & 0.55) and BLIP3-o-4B (0.84 & 0.50). Code is available https://github.com/LINs-lab/IOMM{https://github.com/LINs-lab/IOMM}.

Heroverdenken van UMM Visuele Generatie: Gemaskeerde Modellering voor Efficiënte Pre-training met Alleen Beelden

Rethinking UMM Visual Generation: Masked Modeling for Efficient Image-Only Pre-training

Samenvatting

Support