DyaDiT: Um Transformador de Difusão Multimodal para Geração Socialmente Favorável de Gestos Diádicos
DyaDiT: A Multi-Modal Diffusion Transformer for Socially Favorable Dyadic Gesture Generation
February 26, 2026
Autores: Yichen Peng, Jyun-Ting Song, Siyeol Jung, Ruofan Liu, Haiyang Liu, Xuangeng Chu, Ruicong Liu, Erwin Wu, Hideki Koike, Kris Kitani
cs.AI
Resumo
A geração de gestos conversacionais realistas é essencial para alcançar interações naturais e socialmente envolventes com humanos digitais. No entanto, os métodos existentes geralmente mapeiam um único fluxo de áudio para o movimento de um único orador, sem considerar o contexto social ou modelar a dinâmica mútua entre duas pessoas envolvidas em uma conversa. Apresentamos o DyaDiT, um transformer de difusão multimodal que gera movimento humano contextualmente apropriado a partir de sinais de áudio diádicos. Treinado no Seamless Interaction Dataset, o DyaDiT utiliza áudio diádico com *tokens* de contexto social opcionais para produzir movimentos contextualmente adequados. Ele funde informações de ambos os oradores para capturar a dinâmica da interação, usa um dicionário de movimento para codificar *priors* de movimento e pode, opcionalmente, utilizar os gestos do parceiro conversacional para produzir movimentos mais responsivos. Avaliamos o DyaDiT em métricas padrão de geração de movimento e realizamos estudos de usuário quantitativos, demonstrando que ele não apenas supera os métodos existentes em métricas objetivas, mas também é fortemente preferido pelos usuários, destacando sua robustez e geração de movimento socialmente favorável. O código e os modelos serão disponibilizados após a aceitação.
English
Generating realistic conversational gestures are essential for achieving natural, socially engaging interactions with digital humans. However, existing methods typically map a single audio stream to a single speaker's motion, without considering social context or modeling the mutual dynamics between two people engaging in conversation. We present DyaDiT, a multi-modal diffusion transformer that generates contextually appropriate human motion from dyadic audio signals. Trained on Seamless Interaction Dataset, DyaDiT takes dyadic audio with optional social-context tokens to produce context-appropriate motion. It fuses information from both speakers to capture interaction dynamics, uses a motion dictionary to encode motion priors, and can optionally utilize the conversational partner's gestures to produce more responsive motion. We evaluate DyaDiT on standard motion generation metrics and conduct quantitative user studies, demonstrating that it not only surpasses existing methods on objective metrics but is also strongly preferred by users, highlighting its robustness and socially favorable motion generation. Code and models will be released upon acceptance.