Eén Opname, Eén Gesprek: Volledig Lichaam Spreekavatar vanuit één Afbeelding
One Shot, One Talk: Whole-body Talking Avatar from a Single Image
December 2, 2024
Auteurs: Jun Xiang, Yudong Guo, Leipeng Hu, Boyang Guo, Yancheng Yuan, Juyong Zhang
cs.AI
Samenvatting
Het bouwen van realistische en animeerbare avatars vereist nog steeds minuten aan multi-view of monoculair zelfroterende video's, en de meeste methoden missen precieze controle over gebaren en expressies. Om deze grens te verleggen, pakken we de uitdaging aan om een geheel lichaam pratende avatar te construeren vanuit een enkele afbeelding. We stellen een nieuw pipeline voor dat twee kritieke problemen aanpakt: 1) complexe dynamische modellering en 2) generalisatie naar nieuwe gebaren en expressies. Om naadloze generalisatie te bereiken, maken we gebruik van recente pose-geleide beeld-naar-video diffusiemodellen om imperfecte videoframes te genereren als pseudo-labels. Om het dynamische modelleringsprobleem veroorzaakt door inconsistente en ruisende pseudo-video's te overwinnen, introduceren we een nauw gekoppelde 3DGS-mesh hybride avatar representatie en passen we verschillende belangrijke regularisaties toe om inconsistenties veroorzaakt door imperfecte labels te verminderen. Uitgebreide experimenten op diverse onderwerpen tonen aan dat onze methode het mogelijk maakt om een fotorealistische, nauwkeurig animeerbare en expressieve geheel lichaam pratende avatar te creëren van slechts een enkele afbeelding.
English
Building realistic and animatable avatars still requires minutes of
multi-view or monocular self-rotating videos, and most methods lack precise
control over gestures and expressions. To push this boundary, we address the
challenge of constructing a whole-body talking avatar from a single image. We
propose a novel pipeline that tackles two critical issues: 1) complex dynamic
modeling and 2) generalization to novel gestures and expressions. To achieve
seamless generalization, we leverage recent pose-guided image-to-video
diffusion models to generate imperfect video frames as pseudo-labels. To
overcome the dynamic modeling challenge posed by inconsistent and noisy
pseudo-videos, we introduce a tightly coupled 3DGS-mesh hybrid avatar
representation and apply several key regularizations to mitigate
inconsistencies caused by imperfect labels. Extensive experiments on diverse
subjects demonstrate that our method enables the creation of a photorealistic,
precisely animatable, and expressive whole-body talking avatar from just a
single image.Summary
AI-Generated Summary