Generación Autoregresiva de Imágenes Consistentes en Múltiples Vistas
Auto-Regressively Generating Multi-View Consistent Images
June 23, 2025
Autores: JiaKui Hu, Yuxiao Yang, Jialun Liu, Jinbo Wu, Chen Zhao, Yanye Lu
cs.AI
Resumen
La generación de imágenes multivista a partir de instrucciones humanas es crucial para la creación de contenido 3D. Los principales desafíos incluyen mantener la consistencia entre múltiples vistas y sintetizar eficazmente formas y texturas bajo diversas condiciones. En este artículo, proponemos el método Auto-Regresivo Multivista (MV-AR), que aprovecha un modelo auto-regresivo para generar progresivamente imágenes multivista consistentes a partir de indicaciones arbitrarias. En primer lugar, la capacidad de predicción del siguiente token del modelo AR mejora significativamente su eficacia en la síntesis progresiva multivista. Al generar vistas ampliamente separadas, MV-AR puede utilizar todas sus vistas anteriores para extraer información de referencia efectiva. Posteriormente, proponemos un modelo unificado que acomoda diversas indicaciones mediante el diseño de arquitectura y estrategias de entrenamiento. Para abordar múltiples condiciones, introducimos módulos de inyección de condiciones para texto, pose de cámara, imagen y forma. Para gestionar condiciones multimodales simultáneamente, se emplea una estrategia de entrenamiento progresivo. Esta estrategia adopta inicialmente el modelo de texto a multivista (t2mv) como línea base para mejorar el desarrollo de un modelo integral de X a multivista (X2mv) mediante la eliminación y combinación aleatoria de condiciones. Finalmente, para mitigar el problema de sobreajuste causado por datos de alta calidad limitados, proponemos la técnica de aumento de datos "Shuffle View", expandiendo significativamente los datos de entrenamiento en varios órdenes de magnitud. Los experimentos demuestran el rendimiento y la versatilidad de nuestro MV-AR, que genera consistentemente imágenes multivista coherentes en un rango de condiciones y se desempeña a la par con los principales modelos de generación de imágenes multivista basados en difusión. El código y los modelos se publicarán en https://github.com/MILab-PKU/MVAR.
English
Generating multi-view images from human instructions is crucial for 3D
content creation. The primary challenges involve maintaining consistency across
multiple views and effectively synthesizing shapes and textures under diverse
conditions. In this paper, we propose the Multi-View Auto-Regressive (MV-AR)
method, which leverages an auto-regressive model to progressively generate
consistent multi-view images from arbitrary prompts. Firstly, the
next-token-prediction capability of the AR model significantly enhances its
effectiveness in facilitating progressive multi-view synthesis. When generating
widely-separated views, MV-AR can utilize all its preceding views to extract
effective reference information. Subsequently, we propose a unified model that
accommodates various prompts via architecture designing and training
strategies. To address multiple conditions, we introduce condition injection
modules for text, camera pose, image, and shape. To manage multi-modal
conditions simultaneously, a progressive training strategy is employed. This
strategy initially adopts the text-to-multi-view (t2mv) model as a baseline to
enhance the development of a comprehensive X-to-multi-view (X2mv) model through
the randomly dropping and combining conditions. Finally, to alleviate the
overfitting problem caused by limited high-quality data, we propose the
"Shuffle View" data augmentation technique, thus significantly expanding the
training data by several magnitudes. Experiments demonstrate the performance
and versatility of our MV-AR, which consistently generates consistent
multi-view images across a range of conditions and performs on par with leading
diffusion-based multi-view image generation models. Code and models will be
released at https://github.com/MILab-PKU/MVAR.