FitMe: Modelos Morfáveis 3D Fotorealísticos Baseados em Aprendizado Profundo para Avatares

Resumo

Neste artigo, apresentamos o FitMe, um modelo de reflectância facial e um pipeline de otimização de renderização diferenciável, que pode ser utilizado para adquirir avatares humanos renderizáveis de alta fidelidade a partir de uma ou múltiplas imagens. O modelo consiste em um gerador baseado em estilo multimodal, que captura a aparência facial em termos de reflectância difusa e especular, e um modelo de forma baseado em PCA. Empregamos um processo de renderização diferenciável rápido que pode ser usado em um pipeline de otimização, ao mesmo tempo em que alcança sombreamento facial fotorrealista. Nosso processo de otimização captura com precisão tanto a reflectância quanto a forma facial em alto detalhe, explorando a expressividade da representação latente baseada em estilo e do nosso modelo de forma. O FitMe alcança a aquisição de reflectância e preservação de identidade de última geração em imagens faciais únicas "in-the-wild", enquanto produz resultados impressionantes semelhantes a escaneamentos quando recebe múltiplas imagens faciais não restritas pertencentes à mesma identidade. Em contraste com reconstruções recentes de avatares implícitos, o FitMe requer apenas um minuto e produz avatares reluzentes baseados em malha e textura, que podem ser utilizados por aplicações de usuário final.

English

In this paper, we introduce FitMe, a facial reflectance model and a differentiable rendering optimization pipeline, that can be used to acquire high-fidelity renderable human avatars from single or multiple images. The model consists of a multi-modal style-based generator, that captures facial appearance in terms of diffuse and specular reflectance, and a PCA-based shape model. We employ a fast differentiable rendering process that can be used in an optimization pipeline, while also achieving photorealistic facial shading. Our optimization process accurately captures both the facial reflectance and shape in high-detail, by exploiting the expressivity of the style-based latent representation and of our shape model. FitMe achieves state-of-the-art reflectance acquisition and identity preservation on single "in-the-wild" facial images, while it produces impressive scan-like results, when given multiple unconstrained facial images pertaining to the same identity. In contrast with recent implicit avatar reconstructions, FitMe requires only one minute and produces relightable mesh and texture-based avatars, that can be used by end-user applications.

FitMe: Modelos Morfáveis 3D Fotorealísticos Baseados em Aprendizado Profundo para Avatares

FitMe: Deep Photorealistic 3D Morphable Model Avatars

Resumo

Support