De audio a encarnación fotorrealista: Síntesis de humanos en conversaciones
From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations
January 3, 2024
Autores: Evonne Ng, Javier Romero, Timur Bagautdinov, Shaojie Bai, Trevor Darrell, Angjoo Kanazawa, Alexander Richard
cs.AI
Resumen
Presentamos un marco para generar avatares fotorealísticos completos que gesticulan según la dinámica conversacional de una interacción diádica. Dado un audio de voz, generamos múltiples posibilidades de movimiento gestual para un individuo, incluyendo cara, cuerpo y manos. La clave de nuestro método radica en combinar los beneficios de la diversidad de muestras de la cuantización vectorial con los detalles de alta frecuencia obtenidos a través de difusión para generar movimientos más dinámicos y expresivos. Visualizamos el movimiento generado utilizando avatares altamente fotorealísticos que pueden expresar matices cruciales en los gestos (por ejemplo, muecas y sonrisas irónicas). Para facilitar esta línea de investigación, introducimos un conjunto de datos conversacional de múltiples vistas, pionero en su tipo, que permite la reconstrucción fotorealística. Los experimentos muestran que nuestro modelo genera gestos apropiados y diversos, superando tanto a los métodos basados únicamente en difusión como en cuantización vectorial. Además, nuestra evaluación perceptual destaca la importancia del fotorealismo (frente a mallas) para evaluar con precisión los detalles sutiles del movimiento en los gestos conversacionales. El código y el conjunto de datos están disponibles en línea.
English
We present a framework for generating full-bodied photorealistic avatars that
gesture according to the conversational dynamics of a dyadic interaction. Given
speech audio, we output multiple possibilities of gestural motion for an
individual, including face, body, and hands. The key behind our method is in
combining the benefits of sample diversity from vector quantization with the
high-frequency details obtained through diffusion to generate more dynamic,
expressive motion. We visualize the generated motion using highly
photorealistic avatars that can express crucial nuances in gestures (e.g.
sneers and smirks). To facilitate this line of research, we introduce a
first-of-its-kind multi-view conversational dataset that allows for
photorealistic reconstruction. Experiments show our model generates appropriate
and diverse gestures, outperforming both diffusion- and VQ-only methods.
Furthermore, our perceptual evaluation highlights the importance of
photorealism (vs. meshes) in accurately assessing subtle motion details in
conversational gestures. Code and dataset available online.