Un Disparo, Una Conversación: Avatar Hablante de Cuerpo Completo a partir de una Única Imagen

Resumen

La creación de avatares realistas y animables todavía requiere minutos de videos de auto-rotación multicámara o monocular, y la mayoría de los métodos carecen de control preciso sobre gestos y expresiones. Para empujar este límite, abordamos el desafío de construir un avatar hablante de cuerpo completo a partir de una sola imagen. Proponemos un nuevo proceso que aborda dos problemas críticos: 1) modelado dinámico complejo y 2) generalización a gestos y expresiones novedosos. Para lograr una generalización perfecta, aprovechamos los modelos de difusión de imagen a video guiados por poses recientes para generar cuadros de video imperfectos como pseudoetiquetas. Para superar el desafío de modelado dinámico planteado por los pseudo-videos inconsistentes y ruidosos, introducimos una representación de avatar híbrida 3DGS-mesh estrechamente acoplada y aplicamos varias regularizaciones clave para mitigar las inconsistencias causadas por etiquetas imperfectas. Experimentos extensos en sujetos diversos demuestran que nuestro método permite la creación de un avatar hablante de cuerpo completo, fotorrealista, precisamente animable y expresivo a partir de una sola imagen.

English

Building realistic and animatable avatars still requires minutes of multi-view or monocular self-rotating videos, and most methods lack precise control over gestures and expressions. To push this boundary, we address the challenge of constructing a whole-body talking avatar from a single image. We propose a novel pipeline that tackles two critical issues: 1) complex dynamic modeling and 2) generalization to novel gestures and expressions. To achieve seamless generalization, we leverage recent pose-guided image-to-video diffusion models to generate imperfect video frames as pseudo-labels. To overcome the dynamic modeling challenge posed by inconsistent and noisy pseudo-videos, we introduce a tightly coupled 3DGS-mesh hybrid avatar representation and apply several key regularizations to mitigate inconsistencies caused by imperfect labels. Extensive experiments on diverse subjects demonstrate that our method enables the creation of a photorealistic, precisely animatable, and expressive whole-body talking avatar from just a single image.

Un Disparo, Una Conversación: Avatar Hablante de Cuerpo Completo a partir de una Única Imagen

One Shot, One Talk: Whole-body Talking Avatar from a Single Image

Resumen

Support