De Áudio para Incorporação Foto-realista: Sintetizando Humanos em Conversas
From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations
January 3, 2024
Autores: Evonne Ng, Javier Romero, Timur Bagautdinov, Shaojie Bai, Trevor Darrell, Angjoo Kanazawa, Alexander Richard
cs.AI
Resumo
Apresentamos um framework para gerar avatares fotorealísticos completos que gesticulam de acordo com a dinâmica conversacional de uma interação diádica. Dado um áudio de fala, geramos múltiplas possibilidades de movimento gestual para um indivíduo, incluindo face, corpo e mãos. A chave do nosso método está em combinar os benefícios da diversidade de amostras da quantização vetorial com os detalhes de alta frequência obtidos por meio de difusão, para gerar movimentos mais dinâmicos e expressivos. Visualizamos o movimento gerado utilizando avatares altamente fotorealísticos que podem expressar nuances cruciais em gestos (por exemplo, esgar e sorriso irônico). Para facilitar essa linha de pesquisa, introduzimos um conjunto de dados conversacional multi-visão inédito, que permite a reconstrução fotorealística. Experimentos mostram que nosso modelo gera gestos apropriados e diversos, superando tanto métodos baseados apenas em difusão quanto em quantização vetorial. Além disso, nossa avaliação perceptual destaca a importância do fotorealismo (em comparação com malhas) na avaliação precisa de detalhes sutis de movimento em gestos conversacionais. Código e conjunto de dados disponíveis online.
English
We present a framework for generating full-bodied photorealistic avatars that
gesture according to the conversational dynamics of a dyadic interaction. Given
speech audio, we output multiple possibilities of gestural motion for an
individual, including face, body, and hands. The key behind our method is in
combining the benefits of sample diversity from vector quantization with the
high-frequency details obtained through diffusion to generate more dynamic,
expressive motion. We visualize the generated motion using highly
photorealistic avatars that can express crucial nuances in gestures (e.g.
sneers and smirks). To facilitate this line of research, we introduce a
first-of-its-kind multi-view conversational dataset that allows for
photorealistic reconstruction. Experiments show our model generates appropriate
and diverse gestures, outperforming both diffusion- and VQ-only methods.
Furthermore, our perceptual evaluation highlights the importance of
photorealism (vs. meshes) in accurately assessing subtle motion details in
conversational gestures. Code and dataset available online.