DyaDiT: Ein multimodaler Diffusions-Transformer zur Erzeugung sozial vorteilhafter dyadischer Gesten

Zusammenfassung

Die Erzeugung realistischer Konversationsgesten ist entscheidend für natürliche, sozial ansprechende Interaktionen mit digitalen Menschen. Bisherige Methoden bilden typischerweise einen einzelnen Audiostrom auf die Bewegung eines einzelnen Sprechers ab, ohne den sozialen Kontext zu berücksichtigen oder die wechselseitige Dynamik zwischen zwei Gesprächspartnern zu modellieren. Wir stellen DyaDiT vor, einen multimodalen Diffusion-Transformer, der kontextangemessene menschliche Bewegungen aus dyadischen Audiosignalen generiert. Trainiert auf dem Seamless Interaction Dataset, verarbeitet DyaDiT dyadische Audioeingaben mit optionalen Sozialkontext-Tokens, um kontextgerechte Bewegungen zu erzeugen. Die Methode fusioniert Informationen beider Sprecher, um Interaktionsdynamiken zu erfassen, nutzt ein Bewegungslexikon zur Kodierung von Bewegungs-Priors und kann optional die Gesten des Gesprächspartners verwenden, um responsivere Bewegungen zu erzeugen. Wir evaluieren DyaDiT anhand standardisierter Bewegungsgenerierungsmetriken und durch quantitative Nutzerstudien. Die Ergebnisse zeigen, dass unsere Methode nicht nur bestehende Ansätze in objektiven Metriken übertrifft, sondern auch von Nutzern deutlich bevorzugt wird, was ihre Robustheit und sozial vorteilhafte Bewegungsgenerierung unterstreicht. Code und Modelle werden nach Annahme der Arbeit veröffentlicht.

English

Generating realistic conversational gestures are essential for achieving natural, socially engaging interactions with digital humans. However, existing methods typically map a single audio stream to a single speaker's motion, without considering social context or modeling the mutual dynamics between two people engaging in conversation. We present DyaDiT, a multi-modal diffusion transformer that generates contextually appropriate human motion from dyadic audio signals. Trained on Seamless Interaction Dataset, DyaDiT takes dyadic audio with optional social-context tokens to produce context-appropriate motion. It fuses information from both speakers to capture interaction dynamics, uses a motion dictionary to encode motion priors, and can optionally utilize the conversational partner's gestures to produce more responsive motion. We evaluate DyaDiT on standard motion generation metrics and conduct quantitative user studies, demonstrating that it not only surpasses existing methods on objective metrics but is also strongly preferred by users, highlighting its robustness and socially favorable motion generation. Code and models will be released upon acceptance.

DyaDiT: Ein multimodaler Diffusions-Transformer zur Erzeugung sozial vorteilhafter dyadischer Gesten

DyaDiT: A Multi-Modal Diffusion Transformer for Socially Favorable Dyadic Gesture Generation

Zusammenfassung

Support