От аудио к фотореалистичному воплощению: синтез людей в диалогах
From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations
January 3, 2024
Авторы: Evonne Ng, Javier Romero, Timur Bagautdinov, Shaojie Bai, Trevor Darrell, Angjoo Kanazawa, Alexander Richard
cs.AI
Аннотация
Мы представляем фреймворк для создания фотореалистичных аватаров с полным телом, которые жестикулируют в соответствии с динамикой диалога в двустороннем взаимодействии. На основе аудиозаписи речи мы генерируем несколько вариантов жестов для человека, включая движения лица, тела и рук. Ключевая идея нашего метода заключается в сочетании преимуществ разнообразия выборок, достигаемого с помощью векторного квантования, с высокочастотными деталями, полученными через диффузию, что позволяет создавать более динамичные и выразительные движения. Сгенерированные движения визуализируются с использованием высоко фотореалистичных аватаров, способных передавать важные нюансы жестов (например, усмешки и ухмылки). Для поддержки этого направления исследований мы представляем уникальный многовидовой набор данных для диалогов, который позволяет выполнять фотореалистичную реконструкцию. Эксперименты показывают, что наша модель генерирует уместные и разнообразные жесты, превосходя как чисто диффузионные методы, так и методы, основанные только на векторном квантовании. Кроме того, наше перцептивное исследование подчеркивает важность фотореализма (в сравнении с полигональными сетками) для точной оценки тонких деталей движений в жестах во время разговора. Код и набор данных доступны онлайн.
English
We present a framework for generating full-bodied photorealistic avatars that
gesture according to the conversational dynamics of a dyadic interaction. Given
speech audio, we output multiple possibilities of gestural motion for an
individual, including face, body, and hands. The key behind our method is in
combining the benefits of sample diversity from vector quantization with the
high-frequency details obtained through diffusion to generate more dynamic,
expressive motion. We visualize the generated motion using highly
photorealistic avatars that can express crucial nuances in gestures (e.g.
sneers and smirks). To facilitate this line of research, we introduce a
first-of-its-kind multi-view conversational dataset that allows for
photorealistic reconstruction. Experiments show our model generates appropriate
and diverse gestures, outperforming both diffusion- and VQ-only methods.
Furthermore, our perceptual evaluation highlights the importance of
photorealism (vs. meshes) in accurately assessing subtle motion details in
conversational gestures. Code and dataset available online.