DyaDiT: Un Transformador de Difusión Multimodal para la Generación de Gestos Diádicos Socialmente Favorables

Resumen

La generación de gestos conversacionales realistas es esencial para lograr interacciones naturales y socialmente atractivas con humanos digitales. Sin embargo, los métodos existentes suelen mapear un único flujo de audio al movimiento de un solo interlocutor, sin considerar el contexto social ni modelar la dinámica mutua entre dos personas que mantienen una conversación. Presentamos DyaDiT, un transformador de difusión multimodal que genera movimiento humano contextualmente apropiado a partir de señales de audio diádicas. Entrenado en el Conjunto de Datos de Interacción Fluida, DyaDiT toma audio diádico con tokens de contexto social opcionales para producir movimientos contextualmente apropiados. Fusiona información de ambos interlocutores para capturar la dinámica de interacción, utiliza un diccionario de movimientos para codificar *priors* de movimiento y puede utilizar opcionalmente los gestos del compañero de conversación para producir movimientos más reactivos. Evaluamos DyaDiT en métricas estándar de generación de movimiento y realizamos estudios de usuario cuantitativos, demostrando que no solo supera a los métodos existentes en métricas objetivas, sino que también es fuertemente preferido por los usuarios, lo que destaca su solidez y generación de movimientos socialmente favorables. El código y los modelos se publicarán tras la aceptación.

English

Generating realistic conversational gestures are essential for achieving natural, socially engaging interactions with digital humans. However, existing methods typically map a single audio stream to a single speaker's motion, without considering social context or modeling the mutual dynamics between two people engaging in conversation. We present DyaDiT, a multi-modal diffusion transformer that generates contextually appropriate human motion from dyadic audio signals. Trained on Seamless Interaction Dataset, DyaDiT takes dyadic audio with optional social-context tokens to produce context-appropriate motion. It fuses information from both speakers to capture interaction dynamics, uses a motion dictionary to encode motion priors, and can optionally utilize the conversational partner's gestures to produce more responsive motion. We evaluate DyaDiT on standard motion generation metrics and conduct quantitative user studies, demonstrating that it not only surpasses existing methods on objective metrics but is also strongly preferred by users, highlighting its robustness and socially favorable motion generation. Code and models will be released upon acceptance.

DyaDiT: Un Transformador de Difusión Multimodal para la Generación de Gestos Diádicos Socialmente Favorables

DyaDiT: A Multi-Modal Diffusion Transformer for Socially Favorable Dyadic Gesture Generation

Resumen

Support