ChatPaper.aiChatPaper

격차 해소: 단안형 폰 캡처를 통한 스튜디오급 아바타 생성

Bridging the Gap: Studio-like Avatar Creation from a Monocular Phone Capture

July 28, 2024
저자: ShahRukh Athar, Shunsuke Saito, Zhengyu Yang, Stanislav Pidhorsky, Chen Cao
cs.AI

초록

개인을 위한 사실적인 아바타를 생성하는 것은 전통적으로 LightStage 시스템과 같은 복잡하고 비용이 많이 드는 스튜디오 장비를 사용한 광범위한 캡처 세션을 필요로 했습니다. 최근 신경망 표현 기술의 발전으로 인해 스마트폰으로 빠르게 스캔한 데이터로부터 사실적이고 애니메이션 가능한 3D 아바타를 생성할 수 있게 되었지만, 이러한 아바타는 캡처 시의 조명이 고정되어 있고, 얼굴 디테일이 부족하며, 귀 뒤와 같은 부분에서 누락된 영역이 존재합니다. 따라서 이들은 스튜디오에서 캡처된 아바타에 비해 품질이 떨어집니다. 본 논문에서는 짧은 단안(monocular) 스마트폰 캡처로부터 스튜디오 수준의 조명이 적용된 텍스처 맵을 생성하여 이러한 격차를 해소하는 방법을 제안합니다. 이를 위해 StyleGAN2의 W^+ 공간을 사용하여 스마트폰 텍스처 맵을 매개변수화함으로써 거의 완벽한 재구성을 가능하게 합니다. 그런 다음, 매우 소량의 스튜디오 캡처 텍스처를 적대적 학습 신호로 사용하여 W^+ 매개변수화 공간에서 샘플링함으로써 StyleGAN2를 미세 조정합니다. 얼굴 디테일의 사실감과 정확도를 더욱 향상시키기 위해, 스마트폰 캡처 텍스처 맵의 이미지 그래디언트를 기반으로 한 신중하게 설계된 확산 모델을 사용하여 StyleGAN2의 출력을 초해상도 처리합니다. 학습이 완료되면, 본 방법은 일반적인 단안 스마트폰 비디오로부터 스튜디오 수준의 얼굴 텍스처 맵을 생성하는 데 탁월한 성능을 발휘합니다. 이를 통해 단안 스마트폰 캡처로부터 사실적이고 균일한 조명이 적용된 완전한 아바타를 생성하는 능력을 입증합니다. http://shahrukhathar.github.io/2024/07/22/Bridging.html{프로젝트 페이지는 여기에서 확인할 수 있습니다.}
English
Creating photorealistic avatars for individuals traditionally involves extensive capture sessions with complex and expensive studio devices like the LightStage system. While recent strides in neural representations have enabled the generation of photorealistic and animatable 3D avatars from quick phone scans, they have the capture-time lighting baked-in, lack facial details and have missing regions in areas such as the back of the ears. Thus, they lag in quality compared to studio-captured avatars. In this paper, we propose a method that bridges this gap by generating studio-like illuminated texture maps from short, monocular phone captures. We do this by parameterizing the phone texture maps using the W^+ space of a StyleGAN2, enabling near-perfect reconstruction. Then, we finetune a StyleGAN2 by sampling in the W^+ parameterized space using a very small set of studio-captured textures as an adversarial training signal. To further enhance the realism and accuracy of facial details, we super-resolve the output of the StyleGAN2 using carefully designed diffusion model that is guided by image gradients of the phone-captured texture map. Once trained, our method excels at producing studio-like facial texture maps from casual monocular smartphone videos. Demonstrating its capabilities, we showcase the generation of photorealistic, uniformly lit, complete avatars from monocular phone captures. http://shahrukhathar.github.io/2024/07/22/Bridging.html{The project page can be found here.}

Summary

AI-Generated Summary

PDF121November 28, 2024