ChatPaper.aiChatPaper

MagicMan: Generatieve Nieuwe Perspectief Synthese van Mensen met 3D-Bewust Diffusie en Iteratieve Verfijning

MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement

August 26, 2024
Auteurs: Xu He, Xiaoyu Li, Di Kang, Jiangnan Ye, Chaopeng Zhang, Liyang Chen, Xiangjun Gao, Han Zhang, Zhiyong Wu, Haolin Zhuang
cs.AI

Samenvatting

Bestaande werken op het gebied van menselijke reconstructie vanuit één afbeelding kampen met een zwakke generaliseerbaarheid door onvoldoende trainingsdata of 3D-inconsistenties als gevolg van een gebrek aan uitgebreide kennis vanuit meerdere perspectieven. In dit artikel introduceren we MagicMan, een mens-specifiek multi-view diffusiemodel dat is ontworpen om hoogwaardige nieuwe perspectiefafbeeldingen te genereren vanuit één referentieafbeelding. Als kern gebruiken we een vooraf getraind 2D-diffusiemodel als de generatieve prior voor generaliseerbaarheid, met het parametrische SMPL-X-model als de 3D-lichaamsprior om 3D-bewustzijn te bevorderen. Om de kritieke uitdaging aan te pakken van het behouden van consistentie terwijl dichte multi-view-generatie wordt bereikt voor verbeterde 3D-menselijke reconstructie, introduceren we eerst hybride multi-view aandacht om zowel efficiënte als grondige informatie-uitwisseling tussen verschillende perspectieven te vergemakkelijken. Daarnaast presenteren we een geometrie-bewuste dubbele tak om gelijktijdige generatie in zowel het RGB- als het normal-domein uit te voeren, wat de consistentie verder verbetert via geometrie-aanwijzingen. Last but not least, om slecht gevormde problemen aan te pakken die voortkomen uit onnauwkeurige SMPL-X-schattingen die in conflict zijn met de referentieafbeelding, stellen we een nieuwe iteratieve verfijningsstrategie voor, die de nauwkeurigheid van SMPL-X progressief optimaliseert terwijl de kwaliteit en consistentie van de gegenereerde multi-views worden verbeterd. Uitgebreide experimentele resultaten tonen aan dat onze methode aanzienlijk beter presteert dan bestaande benaderingen in zowel nieuwe perspectiefsynthese als daaropvolgende 3D-menselijke reconstructietaken.
English
Existing works in single-image human reconstruction suffer from weak generalizability due to insufficient training data or 3D inconsistencies for a lack of comprehensive multi-view knowledge. In this paper, we introduce MagicMan, a human-specific multi-view diffusion model designed to generate high-quality novel view images from a single reference image. As its core, we leverage a pre-trained 2D diffusion model as the generative prior for generalizability, with the parametric SMPL-X model as the 3D body prior to promote 3D awareness. To tackle the critical challenge of maintaining consistency while achieving dense multi-view generation for improved 3D human reconstruction, we first introduce hybrid multi-view attention to facilitate both efficient and thorough information interchange across different views. Additionally, we present a geometry-aware dual branch to perform concurrent generation in both RGB and normal domains, further enhancing consistency via geometry cues. Last but not least, to address ill-shaped issues arising from inaccurate SMPL-X estimation that conflicts with the reference image, we propose a novel iterative refinement strategy, which progressively optimizes SMPL-X accuracy while enhancing the quality and consistency of the generated multi-views. Extensive experimental results demonstrate that our method significantly outperforms existing approaches in both novel view synthesis and subsequent 3D human reconstruction tasks.

Summary

AI-Generated Summary

PDF112November 16, 2024