Repensando a Geração Visual UMM: Modelagem Mascarada para Pré-treinamento Eficiente Baseado Apenas em Imagens

Resumo

Os Modelos Multimodais Unificados (UMMs) são frequentemente limitados pelo pré-treinamento dos seus componentes de geração visual, que normalmente depende de paradigmas ineficientes e de dados escassos e de alta qualidade de pares texto-imagem. Neste artigo, analisamos sistematicamente as abordagens de pré-treinamento para a geração visual em UMMs e identificamos estes dois problemas como os principais estrangulamentos. Para resolvê-los, propomos o Treinamento Exclusivo com Imagens para UMMs (IOMM), uma estrutura de treinamento em duas fases eficiente no uso de dados. A primeira fase pré-treina o componente gerativo visual exclusivamente com dados abundantes e não rotulados de apenas imagens, eliminando assim a dependência de dados pareados nesta fase custosa. A segunda fase ajusta o modelo usando uma mistura de imagens não rotuladas e um pequeno conjunto curado de pares texto-imagem, resultando em um melhor alinhamento instrucional e qualidade gerativa. Extensos experimentos mostram que o IOMM não apenas melhora a eficiência do treinamento, mas também atinge um desempenho de última geração (state-of-the-art, SOTA). Por exemplo, nosso modelo IOMM-B (3.6B) foi treinado do zero usando apenas aproximadamente 1050 horas de GPU H800 (sendo a vasta maioria, 1000 horas, dedicada à eficiente fase de pré-treinamento apenas com imagens). Ele alcança 0.89 no GenEval e 0.55 no WISE—superando bases fortes como BAGEL-7B (0.82 & 0.55) e BLIP3-o-4B (0.84 & 0.50). O código está disponível em https://github.com/LINs-lab/IOMM.

English

Unified Multimodal Models (UMMs) are often constrained by the pre-training of their visual generation components, which typically relies on inefficient paradigms and scarce, high-quality text-image paired data. In this paper, we systematically analyze pre-training recipes for UMM visual generation and identify these two issues as the major bottlenecks. To address them, we propose Image-Only Training for UMMs (IOMM), a data-efficient two-stage training framework. The first stage pre-trains the visual generative component exclusively using abundant unlabeled image-only data, thereby removing the dependency on paired data for this costly phase. The second stage fine-tunes the model using a mixture of unlabeled images and a small curated set of text-image pairs, leading to improved instruction alignment and generative quality. Extensive experiments show that IOMM not only improves training efficiency but also achieves state-of-the-art (SOTA) performance. For example, our IOMM-B (3.6B) model was trained from scratch using only sim 1050 H800 GPU hours (with the vast majority, 1000 hours, dedicated to the efficient image-only pre-training stage). It achieves 0.89 on GenEval and 0.55 on WISE--surpassing strong baselines such as BAGEL-7B (0.82 & 0.55) and BLIP3-o-4B (0.84 & 0.50). Code is available https://github.com/LINs-lab/IOMM{https://github.com/LINs-lab/IOMM}.

Repensando a Geração Visual UMM: Modelagem Mascarada para Pré-treinamento Eficiente Baseado Apenas em Imagens

Rethinking UMM Visual Generation: Masked Modeling for Efficient Image-Only Pre-training

Resumo

Support