DyaDiT: Een Multi-Modaal Diffusie Transformer voor Sociaal Gunstige Dyadische Gebarengeneratie

Samenvatting

Het genereren van realistische conversatiegebaren is essentieel voor het bereiken van natuurlijke, sociaal boeiende interacties met digitale mensen. Bestaande methoden brengen echter doorgaans een enkele audiostroom naar de beweging van één spreker, zonder rekening te houden met de sociale context of de wederzijdse dynamiek tussen twee personen in een gesprek te modelleren. Wij presenteren DyaDiT, een multi-modale diffusie-transformer die contextueel passende menselijke beweging genereert uit dyadische audiosignalen. Getraind op de Seamless Interaction Dataset, gebruikt DyaDiT dyadische audio met optionele sociale-context tokens om contextueel geschikte beweging te produceren. Het fuseert informatie van beide sprekers om interactiedynamiek vast te leggen, gebruikt een bewegingenwoordenboek om beweging-priors te coderen, en kan optioneel de gebaren van de gesprekspartner benutten om responsievere beweging te genereren. Wij evalueren DyaDiT op standaard metrieken voor beweginggeneratie en voeren kwantitatieve gebruikersstudies uit, waaruit blijkt dat het niet alleen bestaande methoden op objectieve metrieken overtreft, maar ook sterk de voorkeur geniet van gebruikers. Dit onderstreept de robuustheid en sociaal wenselijke beweginggeneratie van onze methode. Code en modellen worden vrijgegeven na acceptatie.

English

Generating realistic conversational gestures are essential for achieving natural, socially engaging interactions with digital humans. However, existing methods typically map a single audio stream to a single speaker's motion, without considering social context or modeling the mutual dynamics between two people engaging in conversation. We present DyaDiT, a multi-modal diffusion transformer that generates contextually appropriate human motion from dyadic audio signals. Trained on Seamless Interaction Dataset, DyaDiT takes dyadic audio with optional social-context tokens to produce context-appropriate motion. It fuses information from both speakers to capture interaction dynamics, uses a motion dictionary to encode motion priors, and can optionally utilize the conversational partner's gestures to produce more responsive motion. We evaluate DyaDiT on standard motion generation metrics and conduct quantitative user studies, demonstrating that it not only surpasses existing methods on objective metrics but is also strongly preferred by users, highlighting its robustness and socially favorable motion generation. Code and models will be released upon acceptance.

DyaDiT: Een Multi-Modaal Diffusie Transformer voor Sociaal Gunstige Dyadische Gebarengeneratie

DyaDiT: A Multi-Modal Diffusion Transformer for Socially Favorable Dyadic Gesture Generation

Samenvatting

Support