ChatPaper.aiChatPaper

Un Tir, Une Discussion : Avatar Parlant en Corps Entier à partir d'une Seule Image

One Shot, One Talk: Whole-body Talking Avatar from a Single Image

December 2, 2024
Auteurs: Jun Xiang, Yudong Guo, Leipeng Hu, Boyang Guo, Yancheng Yuan, Juyong Zhang
cs.AI

Résumé

La création d'avatars réalistes et animables nécessite encore des minutes de vidéos multi-vues ou monoculaires en rotation, et la plupart des méthodes manquent de contrôle précis sur les gestes et les expressions. Pour repousser cette limite, nous abordons le défi de construire un avatar parlant en entier à partir d'une seule image. Nous proposons un nouveau processus qui aborde deux problèmes critiques : 1) la modélisation dynamique complexe et 2) la généralisation à de nouveaux gestes et expressions. Pour obtenir une généralisation fluide, nous exploitons les récents modèles de diffusion d'images vers vidéos guidées par la pose pour générer des images vidéo imparfaites en tant que pseudo-étiquettes. Pour surmonter le défi de la modélisation dynamique posé par des vidéos pseudo-incohérentes et bruyantes, nous introduisons une représentation hybride d'avatar 3DGS-maillage étroitement couplée et appliquons plusieurs régularisations clés pour atténuer les incohérences causées par des étiquettes imparfaites. Des expériences approfondies sur des sujets divers démontrent que notre méthode permet la création d'un avatar parlant en entier, photoréaliste, précisément animable et expressif à partir d'une seule image.
English
Building realistic and animatable avatars still requires minutes of multi-view or monocular self-rotating videos, and most methods lack precise control over gestures and expressions. To push this boundary, we address the challenge of constructing a whole-body talking avatar from a single image. We propose a novel pipeline that tackles two critical issues: 1) complex dynamic modeling and 2) generalization to novel gestures and expressions. To achieve seamless generalization, we leverage recent pose-guided image-to-video diffusion models to generate imperfect video frames as pseudo-labels. To overcome the dynamic modeling challenge posed by inconsistent and noisy pseudo-videos, we introduce a tightly coupled 3DGS-mesh hybrid avatar representation and apply several key regularizations to mitigate inconsistencies caused by imperfect labels. Extensive experiments on diverse subjects demonstrate that our method enables the creation of a photorealistic, precisely animatable, and expressive whole-body talking avatar from just a single image.

Summary

AI-Generated Summary

PDF212December 5, 2024