Von Audio zur fotorealistischen Verkörperung: Synthese von Menschen in Gesprächen
From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations
January 3, 2024
Autoren: Evonne Ng, Javier Romero, Timur Bagautdinov, Shaojie Bai, Trevor Darrell, Angjoo Kanazawa, Alexander Richard
cs.AI
Zusammenfassung
Wir präsentieren ein Framework zur Erzeugung von vollständigen, fotorealistischen Avataren, deren Gesten sich an den Gesprächsdynamiken einer dyadischen Interaktion orientieren. Basierend auf Sprachaudio erzeugen wir mehrere Möglichkeiten von Gestenbewegungen für eine Person, einschließlich Gesicht, Körper und Hände. Der Schlüssel unserer Methode liegt in der Kombination der Vorteile von Stichprobenvielfalt durch Vektorquantisierung mit den hochfrequenten Details, die durch Diffusion gewonnen werden, um dynamischere und ausdrucksstärkere Bewegungen zu erzeugen. Wir visualisieren die erzeugten Bewegungen mithilfe hochgradig fotorealistischer Avatare, die entscheidende Nuancen in Gesten (z.B. spöttische Blicke und Grinsen) ausdrücken können. Um diese Forschungsrichtung zu unterstützen, führen wir einen erstmaligen multiview-Konversationsdatensatz ein, der eine fotorealistische Rekonstruktion ermöglicht. Experimente zeigen, dass unser Modell angemessene und vielfältige Gesten erzeugt und sowohl reine Diffusions- als auch VQ-Methoden übertrifft. Darüber hinaus unterstreicht unsere Wahrnehmungsbewertung die Bedeutung von Fotorealismus (im Vergleich zu Meshes) bei der genauen Beurteilung subtiler Bewegungsdetails in Konversationsgesten. Code und Datensatz sind online verfügbar.
English
We present a framework for generating full-bodied photorealistic avatars that
gesture according to the conversational dynamics of a dyadic interaction. Given
speech audio, we output multiple possibilities of gestural motion for an
individual, including face, body, and hands. The key behind our method is in
combining the benefits of sample diversity from vector quantization with the
high-frequency details obtained through diffusion to generate more dynamic,
expressive motion. We visualize the generated motion using highly
photorealistic avatars that can express crucial nuances in gestures (e.g.
sneers and smirks). To facilitate this line of research, we introduce a
first-of-its-kind multi-view conversational dataset that allows for
photorealistic reconstruction. Experiments show our model generates appropriate
and diverse gestures, outperforming both diffusion- and VQ-only methods.
Furthermore, our perceptual evaluation highlights the importance of
photorealism (vs. meshes) in accurately assessing subtle motion details in
conversational gestures. Code and dataset available online.