MIBURI: Verso una Sintesi Gestuale Interattiva ed Espressiva

Abstract

Gli Agenti Conversazionali Incorporati (ECA) mirano a emulare l'interazione umana faccia a faccia attraverso la parola, i gesti e le espressioni facciali. Gli attuali agenti conversazionali basati su grandi modelli linguistici (LLM) mancano di incorporazione e dei gesti espressivi essenziali per un'interazione naturale. Le soluzioni esistenti per gli ECA spesso producono movimenti rigidi e a bassa diversità, inadatti per un'interazione simile a quella umana. In alternativa, i metodi generativi per la sintesi dei gesti co-verbali producono gesti corporei naturali ma dipendono dal contesto vocale futuro e richiedono tempi di esecuzione lunghi. Per colmare questa lacuna, presentiamo MIBURI, il primo framework causale e online per generare gesti espressivi a corpo intero ed espressioni facciali sincronizzati con il dialogo parlato in tempo reale. Utilizziamo codec gestuali consapevoli delle parti del corpo che codificano dettagli motori gerarchici in token discreti multilivello. Questi token vengono poi generati autoregressivamente da un framework causale bidimensionale condizionato su embedding testo-vocali basati su LLM, modellando sia le dinamiche temporali che la gerarchia motoria a livello di parti in tempo reale. Inoltre, introduciamo obiettivi ausiliari per incentivare gesti espressivi e diversificati, prevenendo al contempo la convergenza verso pose statiche. Valutazioni comparative dimostrano che il nostro approccio causale e in tempo reale produce gesti naturali e contestualmente allineati rispetto ai recenti baseline. Esortiamo il lettore a esplorare i video dimostrativi su https://vcai.mpi-inf.mpg.de/projects/MIBURI/.

English

Embodied Conversational Agents (ECAs) aim to emulate human face-to-face interaction through speech, gestures, and facial expressions. Current large language model (LLM)-based conversational agents lack embodiment and the expressive gestures essential for natural interaction. Existing solutions for ECAs often produce rigid, low-diversity motions, that are unsuitable for human-like interaction. Alternatively, generative methods for co-speech gesture synthesis yield natural body gestures but depend on future speech context and require long run-times. To bridge this gap, we present MIBURI, the first online, causal framework for generating expressive full-body gestures and facial expressions synchronized with real-time spoken dialogue. We employ body-part aware gesture codecs that encode hierarchical motion details into multi-level discrete tokens. These tokens are then autoregressively generated by a two-dimensional causal framework conditioned on LLM-based speech-text embeddings, modeling both temporal dynamics and part-level motion hierarchy in real time. Further, we introduce auxiliary objectives to encourage expressive and diverse gestures while preventing convergence to static poses. Comparative evaluations demonstrate that our causal and real-time approach produces natural and contextually aligned gestures against recent baselines. We urge the reader to explore demo videos on https://vcai.mpi-inf.mpg.de/projects/MIBURI/.

MIBURI: Verso una Sintesi Gestuale Interattiva ed Espressiva

MIBURI: Towards Expressive Interactive Gesture Synthesis

Abstract

Support