Replanteamiento de la Generación Visual UMM: Modelado Enmascarado para un Preentrenamiento Eficiente Basado Únicamente en Imágenes
Rethinking UMM Visual Generation: Masked Modeling for Efficient Image-Only Pre-training
March 17, 2026
Autores: Peng Sun, Jun Xie, Tao Lin
cs.AI
Resumen
Los Modelos Multimodales Unificados (UMMs) a menudo se ven limitados por el pre-entrenamiento de sus componentes de generación visual, que normalmente depende de paradigmas ineficientes y de datos escasos y de alta calidad de pares texto-imagen. En este artículo, analizamos sistemáticamente las estrategias de pre-entrenamiento para la generación visual de UMMs e identificamos estos dos problemas como los principales cuellos de botella.
Para abordarlos, proponemos *Image-Only Training for UMMs* (IOMM), un marco de entrenamiento eficiente en datos de dos etapas. La primera etapa pre-entrena el componente generativo visual exclusivamente con abundantes datos no etiquetados de solo imágenes, eliminando así la dependencia de datos pareados para esta fase costosa. La segunda etapa ajusta el modelo (*fine-tuning*) utilizando una mezcla de imágenes no etiquetadas y un pequeño conjunto seleccionado de pares texto-imagen, lo que conduce a una mejor alineación con las instrucciones y a una mayor calidad generativa.
Experimentación exhaustiva demuestra que IOMM no solo mejora la eficiencia del entrenamiento, sino que también logra un rendimiento de vanguardia (SOTA). Por ejemplo, nuestro modelo IOMM-B (3.6B) fue entrenado desde cero usando solo ~1050 horas de GPU H800 (dedicando la gran mayoría, 1000 horas, a la eficiente etapa de pre-entrenamiento con solo imágenes). Alcanza 0.89 en GenEval y 0.55 en WISE, superando a líneas base sólidas como BAGEL-7B (0.82 & 0.55) y BLIP3-o-4B (0.84 & 0.50).
El código está disponible en https://github.com/LINs-lab/IOMM.
English
Unified Multimodal Models (UMMs) are often constrained by the pre-training of their visual generation components, which typically relies on inefficient paradigms and scarce, high-quality text-image paired data. In this paper, we systematically analyze pre-training recipes for UMM visual generation and identify these two issues as the major bottlenecks.
To address them, we propose Image-Only Training for UMMs (IOMM), a data-efficient two-stage training framework.
The first stage pre-trains the visual generative component exclusively using abundant unlabeled image-only data, thereby removing the dependency on paired data for this costly phase. The second stage fine-tunes the model using a mixture of unlabeled images and a small curated set of text-image pairs, leading to improved instruction alignment and generative quality.
Extensive experiments show that IOMM not only improves training efficiency but also achieves state-of-the-art (SOTA) performance.
For example, our IOMM-B (3.6B) model was trained from scratch using only sim 1050 H800 GPU hours (with the vast majority, 1000 hours, dedicated to the efficient image-only pre-training stage). It achieves 0.89 on GenEval and 0.55 on WISE--surpassing strong baselines such as BAGEL-7B (0.82 & 0.55) and BLIP3-o-4B (0.84 & 0.50).
Code is available https://github.com/LINs-lab/IOMM{https://github.com/LINs-lab/IOMM}.