MagicMan: Síntese de Visualização de Novela Generativa de Humanos com Difusão Consciente em 3D e Refinamento Iterativo
MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement
August 26, 2024
Autores: Xu He, Xiaoyu Li, Di Kang, Jiangnan Ye, Chaopeng Zhang, Liyang Chen, Xiangjun Gao, Han Zhang, Zhiyong Wu, Haolin Zhuang
cs.AI
Resumo
Trabalhos existentes na reconstrução humana de imagem única sofrem de fraca generalização devido à falta de dados de treinamento suficientes ou inconsistências 3D por falta de um conhecimento abrangente multi-visão. Neste artigo, apresentamos o MagicMan, um modelo de difusão multi-visão específico para humanos projetado para gerar imagens de novas vistas de alta qualidade a partir de uma única imagem de referência. Em seu núcleo, aproveitamos um modelo de difusão 2D pré-treinado como prior generativa para generalização, com o modelo paramétrico SMPL-X como prior do corpo 3D para promover consciência 3D. Para lidar com o desafio crítico de manter consistência ao alcançar geração densa multi-visão para melhorar a reconstrução humana 3D, primeiro introduzimos atenção híbrida multi-visão para facilitar a troca eficiente e completa de informações entre diferentes visões. Além disso, apresentamos um ramo duplo consciente da geometria para realizar geração simultânea nos domínios RGB e normais, aprimorando ainda mais a consistência por meio de pistas de geometria. Por fim, para lidar com problemas mal formados decorrentes de uma estimativa imprecisa do SMPL-X que entra em conflito com a imagem de referência, propomos uma nova estratégia de refinamento iterativo, que otimiza progressivamente a precisão do SMPL-X enquanto aprimora a qualidade e consistência das multi-visões geradas. Resultados experimentais extensivos demonstram que nosso método supera significativamente abordagens existentes tanto na síntese de novas vistas quanto nas tarefas subsequentes de reconstrução humana 3D.
English
Existing works in single-image human reconstruction suffer from weak
generalizability due to insufficient training data or 3D inconsistencies for a
lack of comprehensive multi-view knowledge. In this paper, we introduce
MagicMan, a human-specific multi-view diffusion model designed to generate
high-quality novel view images from a single reference image. As its core, we
leverage a pre-trained 2D diffusion model as the generative prior for
generalizability, with the parametric SMPL-X model as the 3D body prior to
promote 3D awareness. To tackle the critical challenge of maintaining
consistency while achieving dense multi-view generation for improved 3D human
reconstruction, we first introduce hybrid multi-view attention to facilitate
both efficient and thorough information interchange across different views.
Additionally, we present a geometry-aware dual branch to perform concurrent
generation in both RGB and normal domains, further enhancing consistency via
geometry cues. Last but not least, to address ill-shaped issues arising from
inaccurate SMPL-X estimation that conflicts with the reference image, we
propose a novel iterative refinement strategy, which progressively optimizes
SMPL-X accuracy while enhancing the quality and consistency of the generated
multi-views. Extensive experimental results demonstrate that our method
significantly outperforms existing approaches in both novel view synthesis and
subsequent 3D human reconstruction tasks.Summary
AI-Generated Summary