DyaDiT : Un Transformateur de Diffusion Multi-Modal pour la Génération Socialement Favorable de Gestes Dyadiques

Résumé

La génération de gestes conversationnels réalistes est essentielle pour obtenir des interactions naturelles et socialement engageantes avec des humains numériques. Cependant, les méthodes existantes mappent généralement un seul flux audio aux mouvements d'un seul locuteur, sans tenir compte du contexte social ni modéliser la dynamique mutuelle entre deux personnes engagées dans une conversation. Nous présentons DyaDiT, un transformeur de diffusion multimodal qui génère des mouvements humains contextuellement appropriés à partir de signaux audio dyadiques. Entraîné sur le Seamless Interaction Dataset, DyaDiT utilise un audio dyadique avec des jetons de contexte social optionnels pour produire un mouvement adapté au contexte. Il fusionne les informations des deux locuteurs pour capturer la dynamique interactionnelle, utilise un dictionnaire de mouvements pour encoder des connaissances a priori sur le mouvement, et peut optionnellement utiliser les gestes du partenaire conversationnel pour produire un mouvement plus réactif. Nous évaluons DyaDiT sur des métriques standards de génération de mouvement et menons des études utilisateurs quantitatives, démontrant qu'il surpasse non seulement les méthodes existantes sur les métriques objectives, mais qu'il est aussi fortement préféré par les utilisateurs, soulignant sa robustesse et sa génération de mouvements socialement favorables. Le code et les modèles seront publiés après acceptation.

English

Generating realistic conversational gestures are essential for achieving natural, socially engaging interactions with digital humans. However, existing methods typically map a single audio stream to a single speaker's motion, without considering social context or modeling the mutual dynamics between two people engaging in conversation. We present DyaDiT, a multi-modal diffusion transformer that generates contextually appropriate human motion from dyadic audio signals. Trained on Seamless Interaction Dataset, DyaDiT takes dyadic audio with optional social-context tokens to produce context-appropriate motion. It fuses information from both speakers to capture interaction dynamics, uses a motion dictionary to encode motion priors, and can optionally utilize the conversational partner's gestures to produce more responsive motion. We evaluate DyaDiT on standard motion generation metrics and conduct quantitative user studies, demonstrating that it not only surpasses existing methods on objective metrics but is also strongly preferred by users, highlighting its robustness and socially favorable motion generation. Code and models will be released upon acceptance.

DyaDiT : Un Transformateur de Diffusion Multi-Modal pour la Génération Socialement Favorable de Gestes Dyadiques

DyaDiT: A Multi-Modal Diffusion Transformer for Socially Favorable Dyadic Gesture Generation

Résumé

Support