DyaDiT: Un Trasformatore a Diffusione Multi-Modale per la Generazione di Gestualità Diadica Socialmente Favorevole
DyaDiT: A Multi-Modal Diffusion Transformer for Socially Favorable Dyadic Gesture Generation
February 26, 2026
Autori: Yichen Peng, Jyun-Ting Song, Siyeol Jung, Ruofan Liu, Haiyang Liu, Xuangeng Chu, Ruicong Liu, Erwin Wu, Hideki Koike, Kris Kitani
cs.AI
Abstract
La generazione di gesti conversazionali realistici è essenziale per ottenere interazioni naturali e socialmente coinvolgenti con umani digitali. Tuttavia, i metodi esistenti mappano tipicamente un singolo flusso audio al movimento di un singolo parlante, senza considerare il contesto sociale o modellare le dinamiche reciproche tra due persone impegnate in una conversazione. Presentiamo DyaDiT, un transformer diffusionale multimodale che genera movimento umano contestualmente appropriato a partire da segnali audio diadici. Addestrato sul Seamless Interaction Dataset, DyaDiT utilizza audio diadico con token socio-contestuali opzionali per produrre movimenti adeguati al contesto. Fonde le informazioni di entrambi i parlanti per catturare le dinamiche interattive, utilizza un dizionario del movimento per codificare priorità di movimento e può facoltativamente utilizzare i gesti del partner conversazionale per produrre movimenti più reattivi. Valutiamo DyaDiT sulle metriche standard di generazione del movimento e conduciamo studi utente quantitativi, dimostrando che non solo supera i metodi esistenti nelle metriche oggettive, ma è anche fortemente preferito dagli utenti, evidenziando la sua robustezza e la generazione di movimenti socialmente favorevoli. Codice e modelli saranno rilasciati all'accettazione.
English
Generating realistic conversational gestures are essential for achieving natural, socially engaging interactions with digital humans. However, existing methods typically map a single audio stream to a single speaker's motion, without considering social context or modeling the mutual dynamics between two people engaging in conversation. We present DyaDiT, a multi-modal diffusion transformer that generates contextually appropriate human motion from dyadic audio signals. Trained on Seamless Interaction Dataset, DyaDiT takes dyadic audio with optional social-context tokens to produce context-appropriate motion. It fuses information from both speakers to capture interaction dynamics, uses a motion dictionary to encode motion priors, and can optionally utilize the conversational partner's gestures to produce more responsive motion. We evaluate DyaDiT on standard motion generation metrics and conduct quantitative user studies, demonstrating that it not only surpasses existing methods on objective metrics but is also strongly preferred by users, highlighting its robustness and socially favorable motion generation. Code and models will be released upon acceptance.