FitMe: Modelli Morfabili 3D Fotorealistici Profondi per Avatar

Abstract

In questo articolo presentiamo FitMe, un modello di riflettanza facciale e una pipeline di ottimizzazione di rendering differenziabile, che può essere utilizzato per acquisire avatar umani renderizzabili ad alta fedeltà da una o più immagini. Il modello è composto da un generatore multimodale basato su stili, che cattura l'aspetto facciale in termini di riflettanza diffusa e speculare, e da un modello di forma basato su PCA. Utilizziamo un processo di rendering differenziabile veloce che può essere impiegato in una pipeline di ottimizzazione, raggiungendo al contempo un'illuminazione facciale fotorealistica. Il nostro processo di ottimizzazione cattura accuratamente sia la riflettanza che la forma del viso con un alto livello di dettaglio, sfruttando l'espressività della rappresentazione latente basata su stili e del nostro modello di forma. FitMe raggiunge risultati all'avanguardia nell'acquisizione della riflettanza e nella conservazione dell'identità su singole immagini facciali "in-the-wild", mentre produce risultati impressionanti simili a scansioni quando vengono fornite più immagini facciali non vincolate appartenenti alla stessa identità. A differenza delle recenti ricostruzioni implicite di avatar, FitMe richiede solo un minuto e produce avatar rilucenti basati su mesh e texture, che possono essere utilizzati da applicazioni per utenti finali.

English

In this paper, we introduce FitMe, a facial reflectance model and a differentiable rendering optimization pipeline, that can be used to acquire high-fidelity renderable human avatars from single or multiple images. The model consists of a multi-modal style-based generator, that captures facial appearance in terms of diffuse and specular reflectance, and a PCA-based shape model. We employ a fast differentiable rendering process that can be used in an optimization pipeline, while also achieving photorealistic facial shading. Our optimization process accurately captures both the facial reflectance and shape in high-detail, by exploiting the expressivity of the style-based latent representation and of our shape model. FitMe achieves state-of-the-art reflectance acquisition and identity preservation on single "in-the-wild" facial images, while it produces impressive scan-like results, when given multiple unconstrained facial images pertaining to the same identity. In contrast with recent implicit avatar reconstructions, FitMe requires only one minute and produces relightable mesh and texture-based avatars, that can be used by end-user applications.

FitMe: Modelli Morfabili 3D Fotorealistici Profondi per Avatar

FitMe: Deep Photorealistic 3D Morphable Model Avatars

Abstract

Support