Generación Autoregresiva de Imágenes Consistentes en Múltiples Vistas

Resumen

La generación de imágenes multivista a partir de instrucciones humanas es crucial para la creación de contenido 3D. Los principales desafíos incluyen mantener la consistencia entre múltiples vistas y sintetizar eficazmente formas y texturas bajo diversas condiciones. En este artículo, proponemos el método Auto-Regresivo Multivista (MV-AR), que aprovecha un modelo auto-regresivo para generar progresivamente imágenes multivista consistentes a partir de indicaciones arbitrarias. En primer lugar, la capacidad de predicción del siguiente token del modelo AR mejora significativamente su eficacia en la síntesis progresiva multivista. Al generar vistas ampliamente separadas, MV-AR puede utilizar todas sus vistas anteriores para extraer información de referencia efectiva. Posteriormente, proponemos un modelo unificado que acomoda diversas indicaciones mediante el diseño de arquitectura y estrategias de entrenamiento. Para abordar múltiples condiciones, introducimos módulos de inyección de condiciones para texto, pose de cámara, imagen y forma. Para gestionar condiciones multimodales simultáneamente, se emplea una estrategia de entrenamiento progresivo. Esta estrategia adopta inicialmente el modelo de texto a multivista (t2mv) como línea base para mejorar el desarrollo de un modelo integral de X a multivista (X2mv) mediante la eliminación y combinación aleatoria de condiciones. Finalmente, para mitigar el problema de sobreajuste causado por datos de alta calidad limitados, proponemos la técnica de aumento de datos "Shuffle View", expandiendo significativamente los datos de entrenamiento en varios órdenes de magnitud. Los experimentos demuestran el rendimiento y la versatilidad de nuestro MV-AR, que genera consistentemente imágenes multivista coherentes en un rango de condiciones y se desempeña a la par con los principales modelos de generación de imágenes multivista basados en difusión. El código y los modelos se publicarán en https://github.com/MILab-PKU/MVAR.

English

Generating multi-view images from human instructions is crucial for 3D content creation. The primary challenges involve maintaining consistency across multiple views and effectively synthesizing shapes and textures under diverse conditions. In this paper, we propose the Multi-View Auto-Regressive (MV-AR) method, which leverages an auto-regressive model to progressively generate consistent multi-view images from arbitrary prompts. Firstly, the next-token-prediction capability of the AR model significantly enhances its effectiveness in facilitating progressive multi-view synthesis. When generating widely-separated views, MV-AR can utilize all its preceding views to extract effective reference information. Subsequently, we propose a unified model that accommodates various prompts via architecture designing and training strategies. To address multiple conditions, we introduce condition injection modules for text, camera pose, image, and shape. To manage multi-modal conditions simultaneously, a progressive training strategy is employed. This strategy initially adopts the text-to-multi-view (t2mv) model as a baseline to enhance the development of a comprehensive X-to-multi-view (X2mv) model through the randomly dropping and combining conditions. Finally, to alleviate the overfitting problem caused by limited high-quality data, we propose the "Shuffle View" data augmentation technique, thus significantly expanding the training data by several magnitudes. Experiments demonstrate the performance and versatility of our MV-AR, which consistently generates consistent multi-view images across a range of conditions and performs on par with leading diffusion-based multi-view image generation models. Code and models will be released at https://github.com/MILab-PKU/MVAR.

Generación Autoregresiva de Imágenes Consistentes en Múltiples Vistas

Auto-Regressively Generating Multi-View Consistent Images

Resumen

Support