MagicMan: Generatieve Nieuwe Perspectief Synthese van Mensen met 3D-Bewust Diffusie en Iteratieve Verfijning

Samenvatting

Bestaande werken op het gebied van menselijke reconstructie vanuit één afbeelding kampen met een zwakke generaliseerbaarheid door onvoldoende trainingsdata of 3D-inconsistenties als gevolg van een gebrek aan uitgebreide kennis vanuit meerdere perspectieven. In dit artikel introduceren we MagicMan, een mens-specifiek multi-view diffusiemodel dat is ontworpen om hoogwaardige nieuwe perspectiefafbeeldingen te genereren vanuit één referentieafbeelding. Als kern gebruiken we een vooraf getraind 2D-diffusiemodel als de generatieve prior voor generaliseerbaarheid, met het parametrische SMPL-X-model als de 3D-lichaamsprior om 3D-bewustzijn te bevorderen. Om de kritieke uitdaging aan te pakken van het behouden van consistentie terwijl dichte multi-view-generatie wordt bereikt voor verbeterde 3D-menselijke reconstructie, introduceren we eerst hybride multi-view aandacht om zowel efficiënte als grondige informatie-uitwisseling tussen verschillende perspectieven te vergemakkelijken. Daarnaast presenteren we een geometrie-bewuste dubbele tak om gelijktijdige generatie in zowel het RGB- als het normal-domein uit te voeren, wat de consistentie verder verbetert via geometrie-aanwijzingen. Last but not least, om slecht gevormde problemen aan te pakken die voortkomen uit onnauwkeurige SMPL-X-schattingen die in conflict zijn met de referentieafbeelding, stellen we een nieuwe iteratieve verfijningsstrategie voor, die de nauwkeurigheid van SMPL-X progressief optimaliseert terwijl de kwaliteit en consistentie van de gegenereerde multi-views worden verbeterd. Uitgebreide experimentele resultaten tonen aan dat onze methode aanzienlijk beter presteert dan bestaande benaderingen in zowel nieuwe perspectiefsynthese als daaropvolgende 3D-menselijke reconstructietaken.

English

Existing works in single-image human reconstruction suffer from weak generalizability due to insufficient training data or 3D inconsistencies for a lack of comprehensive multi-view knowledge. In this paper, we introduce MagicMan, a human-specific multi-view diffusion model designed to generate high-quality novel view images from a single reference image. As its core, we leverage a pre-trained 2D diffusion model as the generative prior for generalizability, with the parametric SMPL-X model as the 3D body prior to promote 3D awareness. To tackle the critical challenge of maintaining consistency while achieving dense multi-view generation for improved 3D human reconstruction, we first introduce hybrid multi-view attention to facilitate both efficient and thorough information interchange across different views. Additionally, we present a geometry-aware dual branch to perform concurrent generation in both RGB and normal domains, further enhancing consistency via geometry cues. Last but not least, to address ill-shaped issues arising from inaccurate SMPL-X estimation that conflicts with the reference image, we propose a novel iterative refinement strategy, which progressively optimizes SMPL-X accuracy while enhancing the quality and consistency of the generated multi-views. Extensive experimental results demonstrate that our method significantly outperforms existing approaches in both novel view synthesis and subsequent 3D human reconstruction tasks.

MagicMan: Generatieve Nieuwe Perspectief Synthese van Mensen met 3D-Bewust Diffusie en Iteratieve Verfijning

MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement

Samenvatting

Support