Génération auto-régressive d'images cohérentes en vue multiple
Auto-Regressively Generating Multi-View Consistent Images
June 23, 2025
Auteurs: JiaKui Hu, Yuxiao Yang, Jialun Liu, Jinbo Wu, Chen Zhao, Yanye Lu
cs.AI
Résumé
La génération d'images multi-vues à partir d'instructions humaines est essentielle pour la création de contenu 3D. Les principaux défis consistent à maintenir la cohérence entre plusieurs vues et à synthétiser efficacement les formes et les textures dans des conditions variées. Dans cet article, nous proposons la méthode Multi-View Auto-Regressive (MV-AR), qui exploite un modèle auto-régressif pour générer progressivement des images multi-vues cohérentes à partir de prompts arbitraires. Premièrement, la capacité de prédiction de token suivant du modèle AR améliore significativement son efficacité dans la synthèse progressive multi-vues. Lors de la génération de vues largement séparées, MV-AR peut utiliser toutes ses vues précédentes pour extraire des informations de référence efficaces. Ensuite, nous proposons un modèle unifié qui s'adapte à divers prompts grâce à la conception de l'architecture et aux stratégies d'entraînement. Pour gérer plusieurs conditions, nous introduisons des modules d'injection de conditions pour le texte, la pose de la caméra, l'image et la forme. Pour gérer simultanément des conditions multi-modales, une stratégie d'entraînement progressive est employée. Cette stratégie adopte initialement le modèle texte-à-multi-vues (t2mv) comme base pour améliorer le développement d'un modèle complet X-à-multi-vues (X2mv) via l'abandon et la combinaison aléatoires des conditions. Enfin, pour atténuer le problème de sur-apprentissage causé par des données de haute qualité limitées, nous proposons la technique d'augmentation de données "Shuffle View", augmentant ainsi significativement les données d'entraînement de plusieurs ordres de grandeur. Les expériences démontrent la performance et la polyvalence de notre MV-AR, qui génère de manière cohérente des images multi-vues dans une gamme de conditions et rivalise avec les modèles de génération d'images multi-vues basés sur la diffusion. Le code et les modèles seront disponibles à l'adresse https://github.com/MILab-PKU/MVAR.
English
Generating multi-view images from human instructions is crucial for 3D
content creation. The primary challenges involve maintaining consistency across
multiple views and effectively synthesizing shapes and textures under diverse
conditions. In this paper, we propose the Multi-View Auto-Regressive (MV-AR)
method, which leverages an auto-regressive model to progressively generate
consistent multi-view images from arbitrary prompts. Firstly, the
next-token-prediction capability of the AR model significantly enhances its
effectiveness in facilitating progressive multi-view synthesis. When generating
widely-separated views, MV-AR can utilize all its preceding views to extract
effective reference information. Subsequently, we propose a unified model that
accommodates various prompts via architecture designing and training
strategies. To address multiple conditions, we introduce condition injection
modules for text, camera pose, image, and shape. To manage multi-modal
conditions simultaneously, a progressive training strategy is employed. This
strategy initially adopts the text-to-multi-view (t2mv) model as a baseline to
enhance the development of a comprehensive X-to-multi-view (X2mv) model through
the randomly dropping and combining conditions. Finally, to alleviate the
overfitting problem caused by limited high-quality data, we propose the
"Shuffle View" data augmentation technique, thus significantly expanding the
training data by several magnitudes. Experiments demonstrate the performance
and versatility of our MV-AR, which consistently generates consistent
multi-view images across a range of conditions and performs on par with leading
diffusion-based multi-view image generation models. Code and models will be
released at https://github.com/MILab-PKU/MVAR.