De l'audio à l'incarnation photoréaliste : Synthétiser des humains en conversation
From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations
January 3, 2024
Auteurs: Evonne Ng, Javier Romero, Timur Bagautdinov, Shaojie Bai, Trevor Darrell, Angjoo Kanazawa, Alexander Richard
cs.AI
Résumé
Nous présentons un cadre pour générer des avatars photoréalistes complets qui gesticulent en fonction de la dynamique conversationnelle d'une interaction dyadique. À partir d'un fichier audio de parole, nous produisons plusieurs possibilités de mouvements gestuels pour un individu, incluant le visage, le corps et les mains. La clé de notre méthode réside dans la combinaison des avantages de la diversité d'échantillons offerte par la quantification vectorielle avec les détails haute fréquence obtenus par diffusion, permettant de générer des mouvements plus dynamiques et expressifs. Nous visualisons les mouvements générés à l'aide d'avatars hautement photoréalistes capables d'exprimer des nuances cruciales dans les gestes (par exemple, les grimaces et les sourires moqueurs). Pour faciliter cette ligne de recherche, nous introduisons un jeu de données conversationnel multi-vues, le premier en son genre, permettant une reconstruction photoréaliste. Les expériences montrent que notre modèle génère des gestes appropriés et variés, surpassant les méthodes basées uniquement sur la diffusion ou la quantification vectorielle. De plus, notre évaluation perceptuelle souligne l'importance du photoréalisme (par rapport aux maillages) pour évaluer avec précision les détails subtils des mouvements dans les gestes conversationnels. Le code et le jeu de données sont disponibles en ligne.
English
We present a framework for generating full-bodied photorealistic avatars that
gesture according to the conversational dynamics of a dyadic interaction. Given
speech audio, we output multiple possibilities of gestural motion for an
individual, including face, body, and hands. The key behind our method is in
combining the benefits of sample diversity from vector quantization with the
high-frequency details obtained through diffusion to generate more dynamic,
expressive motion. We visualize the generated motion using highly
photorealistic avatars that can express crucial nuances in gestures (e.g.
sneers and smirks). To facilitate this line of research, we introduce a
first-of-its-kind multi-view conversational dataset that allows for
photorealistic reconstruction. Experiments show our model generates appropriate
and diverse gestures, outperforming both diffusion- and VQ-only methods.
Furthermore, our perceptual evaluation highlights the importance of
photorealism (vs. meshes) in accurately assessing subtle motion details in
conversational gestures. Code and dataset available online.