Da audio a incarnazione fotorealistica: sintesi di esseri umani in conversazioni
From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations
January 3, 2024
Autori: Evonne Ng, Javier Romero, Timur Bagautdinov, Shaojie Bai, Trevor Darrell, Angjoo Kanazawa, Alexander Richard
cs.AI
Abstract
Presentiamo un framework per la generazione di avatar fotorealistici a figura intera che gesticolano in base alle dinamiche conversazionali di un'interazione diadica. Dato un audio vocale, produciamo molteplici possibilità di movimento gestuale per un individuo, includendo viso, corpo e mani. Il punto chiave del nostro metodo risiede nella combinazione dei vantaggi della diversità di campionamento offerta dalla quantizzazione vettoriale con i dettagli ad alta frequenza ottenuti attraverso la diffusione, per generare movimenti più dinamici ed espressivi. Visualizziamo il movimento generato utilizzando avatar altamente fotorealistici in grado di esprimere sfumature cruciali nei gesti (ad esempio, smorfie e sorrisetti). Per facilitare questa linea di ricerca, introduciamo un dataset conversazionale multi-view, il primo nel suo genere, che consente una ricostruzione fotorealistica. Gli esperimenti dimostrano che il nostro modello genera gesti appropriati e diversificati, superando sia i metodi basati esclusivamente sulla diffusione che quelli basati esclusivamente sulla VQ. Inoltre, la nostra valutazione percettiva evidenzia l'importanza del fotorealismo (rispetto alle mesh) nell'accurata valutazione dei dettagli sottili nei gesti conversazionali. Codice e dataset sono disponibili online.
English
We present a framework for generating full-bodied photorealistic avatars that
gesture according to the conversational dynamics of a dyadic interaction. Given
speech audio, we output multiple possibilities of gestural motion for an
individual, including face, body, and hands. The key behind our method is in
combining the benefits of sample diversity from vector quantization with the
high-frequency details obtained through diffusion to generate more dynamic,
expressive motion. We visualize the generated motion using highly
photorealistic avatars that can express crucial nuances in gestures (e.g.
sneers and smirks). To facilitate this line of research, we introduce a
first-of-its-kind multi-view conversational dataset that allows for
photorealistic reconstruction. Experiments show our model generates appropriate
and diverse gestures, outperforming both diffusion- and VQ-only methods.
Furthermore, our perceptual evaluation highlights the importance of
photorealism (vs. meshes) in accurately assessing subtle motion details in
conversational gestures. Code and dataset available online.