Generazione Auto-Regressiva di Immagini Multi-Vista Consistenti
Auto-Regressively Generating Multi-View Consistent Images
June 23, 2025
Autori: JiaKui Hu, Yuxiao Yang, Jialun Liu, Jinbo Wu, Chen Zhao, Yanye Lu
cs.AI
Abstract
La generazione di immagini multi-vista da istruzioni umane è cruciale per la creazione di contenuti 3D. Le principali sfide riguardano il mantenimento della coerenza tra più viste e la sintesi efficace di forme e texture in condizioni diverse. In questo articolo, proponiamo il metodo Multi-View Auto-Regressive (MV-AR), che sfrutta un modello auto-regressivo per generare progressivamente immagini multi-vista coerenti da prompt arbitrari. In primo luogo, la capacità di previsione del token successivo del modello AR migliora significativamente la sua efficacia nel facilitare la sintesi multi-vista progressiva. Quando si generano viste ampiamente separate, MV-AR può utilizzare tutte le viste precedenti per estrarre informazioni di riferimento efficaci. Successivamente, proponiamo un modello unificato che accoglie vari prompt attraverso la progettazione dell'architettura e le strategie di addestramento. Per affrontare condizioni multiple, introduciamo moduli di iniezione di condizioni per testo, posa della telecamera, immagine e forma. Per gestire contemporaneamente condizioni multi-modali, viene impiegata una strategia di addestramento progressivo. Questa strategia adotta inizialmente il modello text-to-multi-view (t2mv) come baseline per migliorare lo sviluppo di un modello X-to-multi-view (X2mv) completo attraverso l'eliminazione e la combinazione casuale delle condizioni. Infine, per alleviare il problema di overfitting causato da dati di alta qualità limitati, proponiamo la tecnica di aumento dei dati "Shuffle View", espandendo così significativamente i dati di addestramento di diversi ordini di grandezza. Gli esperimenti dimostrano le prestazioni e la versatilità del nostro MV-AR, che genera costantemente immagini multi-vista coerenti in una gamma di condizioni e si comporta alla pari con i principali modelli di generazione di immagini multi-vista basati su diffusione. Codice e modelli saranno rilasciati su https://github.com/MILab-PKU/MVAR.
English
Generating multi-view images from human instructions is crucial for 3D
content creation. The primary challenges involve maintaining consistency across
multiple views and effectively synthesizing shapes and textures under diverse
conditions. In this paper, we propose the Multi-View Auto-Regressive (MV-AR)
method, which leverages an auto-regressive model to progressively generate
consistent multi-view images from arbitrary prompts. Firstly, the
next-token-prediction capability of the AR model significantly enhances its
effectiveness in facilitating progressive multi-view synthesis. When generating
widely-separated views, MV-AR can utilize all its preceding views to extract
effective reference information. Subsequently, we propose a unified model that
accommodates various prompts via architecture designing and training
strategies. To address multiple conditions, we introduce condition injection
modules for text, camera pose, image, and shape. To manage multi-modal
conditions simultaneously, a progressive training strategy is employed. This
strategy initially adopts the text-to-multi-view (t2mv) model as a baseline to
enhance the development of a comprehensive X-to-multi-view (X2mv) model through
the randomly dropping and combining conditions. Finally, to alleviate the
overfitting problem caused by limited high-quality data, we propose the
"Shuffle View" data augmentation technique, thus significantly expanding the
training data by several magnitudes. Experiments demonstrate the performance
and versatility of our MV-AR, which consistently generates consistent
multi-view images across a range of conditions and performs on par with leading
diffusion-based multi-view image generation models. Code and models will be
released at https://github.com/MILab-PKU/MVAR.