ChatPaper.aiChatPaper

DyaDiT: Мультимодальный диффузионный трансформер для социально благоприятной генерации диадических жестов

DyaDiT: A Multi-Modal Diffusion Transformer for Socially Favorable Dyadic Gesture Generation

February 26, 2026
Авторы: Yichen Peng, Jyun-Ting Song, Siyeol Jung, Ruofan Liu, Haiyang Liu, Xuangeng Chu, Ruicong Liu, Erwin Wu, Hideki Koike, Kris Kitani
cs.AI

Аннотация

Создание реалистичных разговорных жестов крайне важно для достижения естественного, социально вовлекающего взаимодействия с цифровыми людьми. Однако существующие методы обычно преобразуют один аудиопоток в движения одного говорящего, не учитывая социальный контекст и не моделируя взаимную динамику между двумя людьми, ведущими беседу. Мы представляем DyaDiT, мультимодальный диффузионный трансформер, который генерирует контекстно уместное движение человека на основе диадических аудиосигналов. Обученная на наборе данных Seamless Interaction Dataset, модель DyaDiT использует диадический аудиовход с опциональными токенами социального контекста для создания контекстно соответствующего движения. Она объединяет информацию от обоих собеседников для улавливания динамики взаимодействия, использует словарь движений для кодирования априорных данных о моторике и может опционально задействовать жесты партнера по общению для генерации более реактивных движений. Мы оцениваем DyaDiT по стандартным метрикам генерации движений и проводим количественные пользовательские исследования, демонстрируя, что она не только превосходит существующие методы по объективным показателям, но и явно предпочитается пользователями, что подчеркивает ее надежность и социально благоприятную генерацию движений. Код и модели будут опубликованы после принятия статьи.
English
Generating realistic conversational gestures are essential for achieving natural, socially engaging interactions with digital humans. However, existing methods typically map a single audio stream to a single speaker's motion, without considering social context or modeling the mutual dynamics between two people engaging in conversation. We present DyaDiT, a multi-modal diffusion transformer that generates contextually appropriate human motion from dyadic audio signals. Trained on Seamless Interaction Dataset, DyaDiT takes dyadic audio with optional social-context tokens to produce context-appropriate motion. It fuses information from both speakers to capture interaction dynamics, uses a motion dictionary to encode motion priors, and can optionally utilize the conversational partner's gestures to produce more responsive motion. We evaluate DyaDiT on standard motion generation metrics and conduct quantitative user studies, demonstrating that it not only surpasses existing methods on objective metrics but is also strongly preferred by users, highlighting its robustness and socially favorable motion generation. Code and models will be released upon acceptance.
PDF11February 28, 2026