MagicMan: Generatieve Nieuwe Perspectief Synthese van Mensen met 3D-Bewust Diffusie en Iteratieve Verfijning
MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement
August 26, 2024
Auteurs: Xu He, Xiaoyu Li, Di Kang, Jiangnan Ye, Chaopeng Zhang, Liyang Chen, Xiangjun Gao, Han Zhang, Zhiyong Wu, Haolin Zhuang
cs.AI
Samenvatting
Bestaande werken op het gebied van menselijke reconstructie vanuit één afbeelding kampen met een zwakke generaliseerbaarheid door onvoldoende trainingsdata of 3D-inconsistenties als gevolg van een gebrek aan uitgebreide kennis vanuit meerdere perspectieven. In dit artikel introduceren we MagicMan, een mens-specifiek multi-view diffusiemodel dat is ontworpen om hoogwaardige nieuwe perspectiefafbeeldingen te genereren vanuit één referentieafbeelding. Als kern gebruiken we een vooraf getraind 2D-diffusiemodel als de generatieve prior voor generaliseerbaarheid, met het parametrische SMPL-X-model als de 3D-lichaamsprior om 3D-bewustzijn te bevorderen. Om de kritieke uitdaging aan te pakken van het behouden van consistentie terwijl dichte multi-view-generatie wordt bereikt voor verbeterde 3D-menselijke reconstructie, introduceren we eerst hybride multi-view aandacht om zowel efficiënte als grondige informatie-uitwisseling tussen verschillende perspectieven te vergemakkelijken. Daarnaast presenteren we een geometrie-bewuste dubbele tak om gelijktijdige generatie in zowel het RGB- als het normal-domein uit te voeren, wat de consistentie verder verbetert via geometrie-aanwijzingen. Last but not least, om slecht gevormde problemen aan te pakken die voortkomen uit onnauwkeurige SMPL-X-schattingen die in conflict zijn met de referentieafbeelding, stellen we een nieuwe iteratieve verfijningsstrategie voor, die de nauwkeurigheid van SMPL-X progressief optimaliseert terwijl de kwaliteit en consistentie van de gegenereerde multi-views worden verbeterd. Uitgebreide experimentele resultaten tonen aan dat onze methode aanzienlijk beter presteert dan bestaande benaderingen in zowel nieuwe perspectiefsynthese als daaropvolgende 3D-menselijke reconstructietaken.
English
Existing works in single-image human reconstruction suffer from weak
generalizability due to insufficient training data or 3D inconsistencies for a
lack of comprehensive multi-view knowledge. In this paper, we introduce
MagicMan, a human-specific multi-view diffusion model designed to generate
high-quality novel view images from a single reference image. As its core, we
leverage a pre-trained 2D diffusion model as the generative prior for
generalizability, with the parametric SMPL-X model as the 3D body prior to
promote 3D awareness. To tackle the critical challenge of maintaining
consistency while achieving dense multi-view generation for improved 3D human
reconstruction, we first introduce hybrid multi-view attention to facilitate
both efficient and thorough information interchange across different views.
Additionally, we present a geometry-aware dual branch to perform concurrent
generation in both RGB and normal domains, further enhancing consistency via
geometry cues. Last but not least, to address ill-shaped issues arising from
inaccurate SMPL-X estimation that conflicts with the reference image, we
propose a novel iterative refinement strategy, which progressively optimizes
SMPL-X accuracy while enhancing the quality and consistency of the generated
multi-views. Extensive experimental results demonstrate that our method
significantly outperforms existing approaches in both novel view synthesis and
subsequent 3D human reconstruction tasks.Summary
AI-Generated Summary