ChatPaper.aiChatPaper

Ein Schuss, ein Gespräch: Ganzkörper-Sprechavatar aus einem einzigen Bild

One Shot, One Talk: Whole-body Talking Avatar from a Single Image

December 2, 2024
Autoren: Jun Xiang, Yudong Guo, Leipeng Hu, Boyang Guo, Yancheng Yuan, Juyong Zhang
cs.AI

Zusammenfassung

Das Erstellen realistischer und animierbarer Avatare erfordert immer noch Minuten von Multi-View- oder monokularen selbstrotierenden Videos, und die meisten Methoden fehlen eine präzise Kontrolle über Gesten und Ausdrücke. Um diese Grenze zu erweitern, behandeln wir die Herausforderung, einen Ganzkörper-Sprechavatar aus einem einzigen Bild zu konstruieren. Wir schlagen eine neuartige Pipeline vor, die zwei kritische Probleme angeht: 1) komplexe dynamische Modellierung und 2) Verallgemeinerung auf neue Gesten und Ausdrücke. Um nahtlose Verallgemeinerung zu erreichen, nutzen wir aktuelle posegeführte Bild-zu-Video-Diffusionsmodelle, um unvollkommene Videoframes als Pseudolabels zu generieren. Um die durch inkonsistente und rauschige Pseudovideos verursachte Herausforderung der dynamischen Modellierung zu überwinden, führen wir eine eng gekoppelte 3DGS-Mesh-Hybridavatar-Repräsentation ein und wenden mehrere Schlüsselregularisierungen an, um Inkonsistenzen durch unvollkommene Labels zu mildern. Umfangreiche Experimente an verschiedenen Themen zeigen, dass unsere Methode die Erstellung eines fotorealistischen, präzise animierbaren und ausdrucksstarken Ganzkörper-Sprechavatars aus nur einem einzigen Bild ermöglicht.
English
Building realistic and animatable avatars still requires minutes of multi-view or monocular self-rotating videos, and most methods lack precise control over gestures and expressions. To push this boundary, we address the challenge of constructing a whole-body talking avatar from a single image. We propose a novel pipeline that tackles two critical issues: 1) complex dynamic modeling and 2) generalization to novel gestures and expressions. To achieve seamless generalization, we leverage recent pose-guided image-to-video diffusion models to generate imperfect video frames as pseudo-labels. To overcome the dynamic modeling challenge posed by inconsistent and noisy pseudo-videos, we introduce a tightly coupled 3DGS-mesh hybrid avatar representation and apply several key regularizations to mitigate inconsistencies caused by imperfect labels. Extensive experiments on diverse subjects demonstrate that our method enables the creation of a photorealistic, precisely animatable, and expressive whole-body talking avatar from just a single image.

Summary

AI-Generated Summary

PDF212December 5, 2024