ChatPaper.aiChatPaper

매직맨: 3D 인식을 활용한 인간의 생성적 소설적 시각 합성과 반복적 정제

MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement

August 26, 2024
저자: Xu He, Xiaoyu Li, Di Kang, Jiangnan Ye, Chaopeng Zhang, Liyang Chen, Xiangjun Gao, Han Zhang, Zhiyong Wu, Haolin Zhuang
cs.AI

초록

단일 이미지 인간 재구성에 대한 기존 연구는 충분한 훈련 데이터 부족이나 3D 불일치로 인해 강한 일반화 능력이 부족합니다. 복합적인 다중 뷰 지식의 부족으로 인해 이러한 문제가 발생합니다. 본 논문에서는 단일 참조 이미지로부터 고품질의 새로운 뷰 이미지를 생성하기 위해 설계된 인간 특화 다중 뷰 확산 모델인 MagicMan을 소개합니다. 핵심으로, 우리는 일반화 능력을 위해 사전 훈련된 2D 확산 모델을 활용하고, 3D 신체 사전으로는 SMPL-X 모델을 활용하여 3D 인식을 촉진합니다. 개선된 3D 인간 재구성을 위해 밀도 높은 다중 뷰 생성을 달성하면서 일관성을 유지하는 중요한 도전에 대처하기 위해, 우리는 먼저 효율적이고 철저한 정보 교환을 용이하게 하는 하이브리드 다중 뷰 어텐션을 소개합니다. 게다가 RGB 및 노멀 도메인에서 동시에 생성을 수행하는 geometry-aware 이중 분기를 제시하여 geometry 힌트를 통해 일관성을 더욱 향상시킵니다. 마지막으로, 참조 이미지와 충돌하는 부정확한 SMPL-X 추정에서 발생하는 형태가 잘못된 문제에 대응하기 위해, 우리는 점진적으로 SMPL-X 정확도를 최적화하면서 생성된 다중 뷰의 품질과 일관성을 향상시키는 새로운 반복적 세분화 전략을 제안합니다. 광범위한 실험 결과는 우리의 방법이 새로운 뷰 합성 및 이후 3D 인간 재구성 작업에서 기존 방법을 현저하게 능가함을 보여줍니다.
English
Existing works in single-image human reconstruction suffer from weak generalizability due to insufficient training data or 3D inconsistencies for a lack of comprehensive multi-view knowledge. In this paper, we introduce MagicMan, a human-specific multi-view diffusion model designed to generate high-quality novel view images from a single reference image. As its core, we leverage a pre-trained 2D diffusion model as the generative prior for generalizability, with the parametric SMPL-X model as the 3D body prior to promote 3D awareness. To tackle the critical challenge of maintaining consistency while achieving dense multi-view generation for improved 3D human reconstruction, we first introduce hybrid multi-view attention to facilitate both efficient and thorough information interchange across different views. Additionally, we present a geometry-aware dual branch to perform concurrent generation in both RGB and normal domains, further enhancing consistency via geometry cues. Last but not least, to address ill-shaped issues arising from inaccurate SMPL-X estimation that conflicts with the reference image, we propose a novel iterative refinement strategy, which progressively optimizes SMPL-X accuracy while enhancing the quality and consistency of the generated multi-views. Extensive experimental results demonstrate that our method significantly outperforms existing approaches in both novel view synthesis and subsequent 3D human reconstruction tasks.

Summary

AI-Generated Summary

PDF112November 16, 2024