Ripensare la generazione visiva UMM: modellazione mascherata per un pre-addestramento efficiente basato esclusivamente su immagini
Rethinking UMM Visual Generation: Masked Modeling for Efficient Image-Only Pre-training
March 17, 2026
Autori: Peng Sun, Jun Xie, Tao Lin
cs.AI
Abstract
I modelli multimodali unificati (UMM) sono spesso limitati dal pre-addestramento dei loro componenti di generazione visiva, che tipicamente si basa su paradigmi inefficienti e su dati di coppie testo-immagine di alta qualità, ma scarsi. In questo articolo, analizziamo sistematicamente le ricette di pre-addestramento per la generazione visiva degli UMM e identifichiamo questi due problemi come i principali colli di bottiglia.
Per affrontarli, proponiamo Image-Only Training for UMMs (IOMM), un framework di addestramento a due stadi efficiente dal punto di vista dei dati.
Il primo stadio pre-addestra il componente di generazione visiva utilizzando esclusivamente abbondanti dati non etichettati composti da sole immagini, rimuovendo così la dipendenza da dati accoppiati per questa fase costosa. Il secondo stadio mette a punto il modello utilizzando un mix di immagini non etichettate e un piccolo set curato di coppie testo-immagine, portando a un migliore allineamento alle istruzioni e a una qualità generativa superiore.
Esperimenti estensivi mostrano che IOMM non solo migliora l'efficienza dell'addestramento, ma raggiunge anche prestazioni allo stato dell'arte (SOTA).
Ad esempio, il nostro modello IOMM-B (3.6B) è stato addestrato da zero utilizzando solo ~1050 ore GPU H800 (con la stragrande maggioranza, 1000 ore, dedicate all'efficiente stadio di pre-addestramento con sole immagini). Esso ottiene 0.89 su GenEval e 0.55 su WISE, superando baseline solide come BAGEL-7B (0.82 & 0.55) e BLIP3-o-4B (0.84 & 0.50).
Il codice è disponibile all'indirizzo https://github.com/LINs-lab/IOMM.
English
Unified Multimodal Models (UMMs) are often constrained by the pre-training of their visual generation components, which typically relies on inefficient paradigms and scarce, high-quality text-image paired data. In this paper, we systematically analyze pre-training recipes for UMM visual generation and identify these two issues as the major bottlenecks.
To address them, we propose Image-Only Training for UMMs (IOMM), a data-efficient two-stage training framework.
The first stage pre-trains the visual generative component exclusively using abundant unlabeled image-only data, thereby removing the dependency on paired data for this costly phase. The second stage fine-tunes the model using a mixture of unlabeled images and a small curated set of text-image pairs, leading to improved instruction alignment and generative quality.
Extensive experiments show that IOMM not only improves training efficiency but also achieves state-of-the-art (SOTA) performance.
For example, our IOMM-B (3.6B) model was trained from scratch using only sim 1050 H800 GPU hours (with the vast majority, 1000 hours, dedicated to the efficient image-only pre-training stage). It achieves 0.89 on GenEval and 0.55 on WISE--surpassing strong baselines such as BAGEL-7B (0.82 & 0.55) and BLIP3-o-4B (0.84 & 0.50).
Code is available https://github.com/LINs-lab/IOMM{https://github.com/LINs-lab/IOMM}.