Von Audio zur fotorealistischen Verkörperung: Synthese von Menschen in Gesprächen

papers.abstract

Wir präsentieren ein Framework zur Erzeugung von vollständigen, fotorealistischen Avataren, deren Gesten sich an den Gesprächsdynamiken einer dyadischen Interaktion orientieren. Basierend auf Sprachaudio erzeugen wir mehrere Möglichkeiten von Gestenbewegungen für eine Person, einschließlich Gesicht, Körper und Hände. Der Schlüssel unserer Methode liegt in der Kombination der Vorteile von Stichprobenvielfalt durch Vektorquantisierung mit den hochfrequenten Details, die durch Diffusion gewonnen werden, um dynamischere und ausdrucksstärkere Bewegungen zu erzeugen. Wir visualisieren die erzeugten Bewegungen mithilfe hochgradig fotorealistischer Avatare, die entscheidende Nuancen in Gesten (z.B. spöttische Blicke und Grinsen) ausdrücken können. Um diese Forschungsrichtung zu unterstützen, führen wir einen erstmaligen multiview-Konversationsdatensatz ein, der eine fotorealistische Rekonstruktion ermöglicht. Experimente zeigen, dass unser Modell angemessene und vielfältige Gesten erzeugt und sowohl reine Diffusions- als auch VQ-Methoden übertrifft. Darüber hinaus unterstreicht unsere Wahrnehmungsbewertung die Bedeutung von Fotorealismus (im Vergleich zu Meshes) bei der genauen Beurteilung subtiler Bewegungsdetails in Konversationsgesten. Code und Datensatz sind online verfügbar.

English

We present a framework for generating full-bodied photorealistic avatars that gesture according to the conversational dynamics of a dyadic interaction. Given speech audio, we output multiple possibilities of gestural motion for an individual, including face, body, and hands. The key behind our method is in combining the benefits of sample diversity from vector quantization with the high-frequency details obtained through diffusion to generate more dynamic, expressive motion. We visualize the generated motion using highly photorealistic avatars that can express crucial nuances in gestures (e.g. sneers and smirks). To facilitate this line of research, we introduce a first-of-its-kind multi-view conversational dataset that allows for photorealistic reconstruction. Experiments show our model generates appropriate and diverse gestures, outperforming both diffusion- and VQ-only methods. Furthermore, our perceptual evaluation highlights the importance of photorealism (vs. meshes) in accurately assessing subtle motion details in conversational gestures. Code and dataset available online.

Von Audio zur fotorealistischen Verkörperung: Synthese von Menschen in Gesprächen

From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations

papers.abstract

Support