MagicMan: Sintesi Generativa di Nuove Visualizzazioni di Umani con Diffusione 3D-Aware e Affinamento Iterativo
MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement
August 26, 2024
Autori: Xu He, Xiaoyu Li, Di Kang, Jiangnan Ye, Chaopeng Zhang, Liyang Chen, Xiangjun Gao, Han Zhang, Zhiyong Wu, Haolin Zhuang
cs.AI
Abstract
I lavori esistenti nella ricostruzione umana da singola immagine soffrono di una scarsa generalizzabilità a causa di dati di addestramento insufficienti o di inconsistenze 3D dovute alla mancanza di una conoscenza multi-vista completa. In questo articolo, introduciamo MagicMan, un modello di diffusione multi-vista specifico per l'uomo, progettato per generare immagini di nuove viste di alta qualità a partire da una singola immagine di riferimento. Al suo core, sfruttiamo un modello di diffusione 2D pre-addestrato come prior generativa per la generalizzabilità, con il modello parametrico SMPL-X come prior 3D del corpo per promuovere la consapevolezza 3D. Per affrontare la sfida critica di mantenere la coerenza mentre si ottiene una generazione multi-vista densa per migliorare la ricostruzione 3D dell'uomo, introduciamo prima un'attenzione multi-vista ibrida per facilitare uno scambio di informazioni sia efficiente che approfondito tra le diverse viste. Inoltre, presentiamo un ramo duale consapevole della geometria per eseguire una generazione simultanea sia nel dominio RGB che in quello delle normali, migliorando ulteriormente la coerenza attraverso indizi geometrici. Ultimo ma non meno importante, per affrontare i problemi di forma errata derivanti da una stima imprecisa di SMPL-X in conflitto con l'immagine di riferimento, proponiamo una nuova strategia di raffinamento iterativo, che ottimizza progressivamente l'accuratezza di SMPL-X migliorando la qualità e la coerenza delle multi-viste generate. I risultati sperimentali estesi dimostrano che il nostro metodo supera significativamente gli approcci esistenti sia nella sintesi di nuove viste che nei successivi compiti di ricostruzione 3D dell'uomo.
English
Existing works in single-image human reconstruction suffer from weak
generalizability due to insufficient training data or 3D inconsistencies for a
lack of comprehensive multi-view knowledge. In this paper, we introduce
MagicMan, a human-specific multi-view diffusion model designed to generate
high-quality novel view images from a single reference image. As its core, we
leverage a pre-trained 2D diffusion model as the generative prior for
generalizability, with the parametric SMPL-X model as the 3D body prior to
promote 3D awareness. To tackle the critical challenge of maintaining
consistency while achieving dense multi-view generation for improved 3D human
reconstruction, we first introduce hybrid multi-view attention to facilitate
both efficient and thorough information interchange across different views.
Additionally, we present a geometry-aware dual branch to perform concurrent
generation in both RGB and normal domains, further enhancing consistency via
geometry cues. Last but not least, to address ill-shaped issues arising from
inaccurate SMPL-X estimation that conflicts with the reference image, we
propose a novel iterative refinement strategy, which progressively optimizes
SMPL-X accuracy while enhancing the quality and consistency of the generated
multi-views. Extensive experimental results demonstrate that our method
significantly outperforms existing approaches in both novel view synthesis and
subsequent 3D human reconstruction tasks.