Geração Auto-Regressiva de Imagens Consistentes em Múltiplas Visualizações
Auto-Regressively Generating Multi-View Consistent Images
June 23, 2025
Autores: JiaKui Hu, Yuxiao Yang, Jialun Liu, Jinbo Wu, Chen Zhao, Yanye Lu
cs.AI
Resumo
A geração de imagens multi-visão a partir de instruções humanas é crucial para a criação de conteúdo 3D. Os principais desafios envolvem manter a consistência entre múltiplas visões e sintetizar efetivamente formas e texturas sob diversas condições. Neste artigo, propomos o método Multi-View Auto-Regressive (MV-AR), que utiliza um modelo auto-regressivo para gerar progressivamente imagens multi-visão consistentes a partir de prompts arbitrários. Primeiramente, a capacidade de previsão do próximo token do modelo AR aumenta significativamente sua eficácia na síntese progressiva de multi-visões. Ao gerar visões amplamente separadas, o MV-AR pode utilizar todas as suas visões anteriores para extrair informações de referência eficazes. Em seguida, propomos um modelo unificado que acomoda vários prompts por meio de estratégias de design de arquitetura e treinamento. Para lidar com múltiplas condições, introduzimos módulos de injeção de condições para texto, pose da câmera, imagem e forma. Para gerenciar condições multi-modais simultaneamente, uma estratégia de treinamento progressivo é empregada. Essa estratégia inicialmente adota o modelo text-to-multi-view (t2mv) como linha de base para aprimorar o desenvolvimento de um modelo abrangente X-to-multi-view (X2mv) por meio da eliminação e combinação aleatória de condições. Por fim, para aliviar o problema de overfitting causado por dados de alta qualidade limitados, propomos a técnica de aumento de dados "Shuffle View", expandindo significativamente os dados de treinamento em várias magnitudes. Experimentos demonstram o desempenho e a versatilidade do nosso MV-AR, que gera consistentemente imagens multi-visão consistentes em uma variedade de condições e tem um desempenho comparável aos principais modelos de geração de imagens multi-visão baseados em difusão. Códigos e modelos serão disponibilizados em https://github.com/MILab-PKU/MVAR.
English
Generating multi-view images from human instructions is crucial for 3D
content creation. The primary challenges involve maintaining consistency across
multiple views and effectively synthesizing shapes and textures under diverse
conditions. In this paper, we propose the Multi-View Auto-Regressive (MV-AR)
method, which leverages an auto-regressive model to progressively generate
consistent multi-view images from arbitrary prompts. Firstly, the
next-token-prediction capability of the AR model significantly enhances its
effectiveness in facilitating progressive multi-view synthesis. When generating
widely-separated views, MV-AR can utilize all its preceding views to extract
effective reference information. Subsequently, we propose a unified model that
accommodates various prompts via architecture designing and training
strategies. To address multiple conditions, we introduce condition injection
modules for text, camera pose, image, and shape. To manage multi-modal
conditions simultaneously, a progressive training strategy is employed. This
strategy initially adopts the text-to-multi-view (t2mv) model as a baseline to
enhance the development of a comprehensive X-to-multi-view (X2mv) model through
the randomly dropping and combining conditions. Finally, to alleviate the
overfitting problem caused by limited high-quality data, we propose the
"Shuffle View" data augmentation technique, thus significantly expanding the
training data by several magnitudes. Experiments demonstrate the performance
and versatility of our MV-AR, which consistently generates consistent
multi-view images across a range of conditions and performs on par with leading
diffusion-based multi-view image generation models. Code and models will be
released at https://github.com/MILab-PKU/MVAR.