ChatPaper.aiChatPaper

Van audio naar fotorealistische belichaming: Het synthetiseren van mensen in gesprekken

From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations

January 3, 2024
Auteurs: Evonne Ng, Javier Romero, Timur Bagautdinov, Shaojie Bai, Trevor Darrell, Angjoo Kanazawa, Alexander Richard
cs.AI

Samenvatting

We presenteren een raamwerk voor het genereren van volledige, fotorealistische avatars die gebaren maken volgens de conversatiedynamiek van een tweegesprek. Gegeven spraakaudio produceren we meerdere mogelijkheden van gebarenbewegingen voor een individu, inclusief gezicht, lichaam en handen. De kern van onze methode ligt in het combineren van de voordelen van steekproefdiversiteit door vectorquantisatie met de hoogfrequente details verkregen door diffusie om dynamischere, expressievere bewegingen te genereren. We visualiseren de gegenereerde bewegingen met behulp van zeer fotorealistische avatars die cruciale nuances in gebaren kunnen uitdrukken (bijvoorbeeld grijnzen en glimlachen). Om dit onderzoeksgebied te faciliteren, introduceren we een baanbrekende multi-view conversatiedataset die fotorealistische reconstructie mogelijk maakt. Experimenten tonen aan dat ons model passende en diverse gebaren genereert, wat beter presteert dan zowel diffusie- als VQ-alleen methoden. Bovendien benadrukt onze perceptuele evaluatie het belang van fotorealisme (in tegenstelling tot meshes) bij het nauwkeurig beoordelen van subtiele bewegingsdetails in conversatiegebaren. Code en dataset zijn online beschikbaar.
English
We present a framework for generating full-bodied photorealistic avatars that gesture according to the conversational dynamics of a dyadic interaction. Given speech audio, we output multiple possibilities of gestural motion for an individual, including face, body, and hands. The key behind our method is in combining the benefits of sample diversity from vector quantization with the high-frequency details obtained through diffusion to generate more dynamic, expressive motion. We visualize the generated motion using highly photorealistic avatars that can express crucial nuances in gestures (e.g. sneers and smirks). To facilitate this line of research, we introduce a first-of-its-kind multi-view conversational dataset that allows for photorealistic reconstruction. Experiments show our model generates appropriate and diverse gestures, outperforming both diffusion- and VQ-only methods. Furthermore, our perceptual evaluation highlights the importance of photorealism (vs. meshes) in accurately assessing subtle motion details in conversational gestures. Code and dataset available online.
PDF286December 15, 2024