Repenser la génération visuelle UMM : modélisation masquée pour un pré-entraînement efficace basé uniquement sur les images

Résumé

Les modèles multimodaux unifiés (UMM) sont souvent limités par le pré-entraînement de leurs composants de génération visuelle, qui repose généralement sur des paradigmes inefficaces et des données appariées texte-image de haute qualité rares. Dans cet article, nous analysons systématiquement les méthodes de pré-entraînement pour la génération visuelle des UMM et identifions ces deux problèmes comme les principaux goulots d'étranglement. Pour y remédier, nous proposons l'**Entraînement sur Images Uniquement pour les UMM (IOMM)**, un cadre d'entraînement efficace en données en deux étapes. La première étape pré-entraîne le composant de génération visuelle exclusivement à l'aide d'abondantes données non étiquetées constituées uniquement d'images, supprimant ainsi la dépendance aux données appariées pour cette phase coûteuse. La deuxième étape effectue un apprentissage fin du modèle en utilisant un mélange d'images non étiquetées et d'un petit ensemble trié de paires texte-image, conduisant à une meilleure alignement aux instructions et une qualité générative améliorée. Des expériences approfondies montrent qu'IOMM améliore non seulement l'efficacité de l'entraînement, mais atteint également des performances à l'état de l'art (SOTA). Par exemple, notre modèle IOMM-B (3,6B) a été entraîné à partir de zéro en utilisant seulement ∼1050 heures GPU H800 (dont la grande majorité, 1000 heures, dédiée à la phase efficace de pré-entraînement sur images uniquement). Il obtient un score de 0,89 sur GenEval et 0,55 sur WISE, surpassant des bases de référence solides telles que BAGEL-7B (0,82 & 0,55) et BLIP3-o-4B (0,84 & 0,50). Le code est disponible à l'adresse : https://github.com/LINs-lab/IOMM.

English

Unified Multimodal Models (UMMs) are often constrained by the pre-training of their visual generation components, which typically relies on inefficient paradigms and scarce, high-quality text-image paired data. In this paper, we systematically analyze pre-training recipes for UMM visual generation and identify these two issues as the major bottlenecks. To address them, we propose Image-Only Training for UMMs (IOMM), a data-efficient two-stage training framework. The first stage pre-trains the visual generative component exclusively using abundant unlabeled image-only data, thereby removing the dependency on paired data for this costly phase. The second stage fine-tunes the model using a mixture of unlabeled images and a small curated set of text-image pairs, leading to improved instruction alignment and generative quality. Extensive experiments show that IOMM not only improves training efficiency but also achieves state-of-the-art (SOTA) performance. For example, our IOMM-B (3.6B) model was trained from scratch using only sim 1050 H800 GPU hours (with the vast majority, 1000 hours, dedicated to the efficient image-only pre-training stage). It achieves 0.89 on GenEval and 0.55 on WISE--surpassing strong baselines such as BAGEL-7B (0.82 & 0.55) and BLIP3-o-4B (0.84 & 0.50). Code is available https://github.com/LINs-lab/IOMM{https://github.com/LINs-lab/IOMM}.

Repenser la génération visuelle UMM : modélisation masquée pour un pré-entraînement efficace basé uniquement sur les images

Rethinking UMM Visual Generation: Masked Modeling for Efficient Image-Only Pre-training

Résumé

Support