MIBURI : Vers une synthèse gestuelle interactive expressive

Résumé

Les agents conversationnels incarnés (ECA) visent à reproduire l'interaction humaine en face-à-face par la parole, les gestes et les expressions faciales. Les agents conversationnels actuels basés sur de grands modèles de langage (LLM) manquent d'incarnation et des gestes expressifs essentiels à une interaction naturelle. Les solutions existantes pour les ECA produisent souvent des mouvements rigides et peu diversifiés, inadaptés à une interaction humaine. Alternativement, les méthodes génératives de synthèse de gestes co-paroliers produisent des gestes corporels naturels mais dépendent du contexte vocal futur et nécessitent des temps de calcul longs. Pour combler cette lacune, nous présentons MIBURI, le premier cadre causal en ligne générant des gestes expressifs du corps entier et des expressions faciales synchronisés avec un dialogue oral en temps réel. Nous utilisons des codecs gestuels conscients des parties du corps qui encodent des détails hiérarchiques du mouvement en jetons discrets multi-niveaux. Ces jetons sont ensuite générés de manière autorégressive par un cadre causal bidimensionnel conditionné par des embeddings texte-parole issus de LLM, modélisant à la fois la dynamique temporelle et la hiérarchie des mouvements par partie en temps réel. De plus, nous introduisons des objectifs auxiliaires pour favoriser des gestes expressifs et diversifiés tout en évitant la convergence vers des poses statiques. Des évaluations comparatives démontrent que notre approche causale et en temps réel produit des gestes naturels et contextuellement alignés par rapport aux références récentes. Nous invitons le lecteur à explorer les vidéos de démonstration sur https://vcai.mpi-inf.mpg.de/projects/MIBURI/.

English

Embodied Conversational Agents (ECAs) aim to emulate human face-to-face interaction through speech, gestures, and facial expressions. Current large language model (LLM)-based conversational agents lack embodiment and the expressive gestures essential for natural interaction. Existing solutions for ECAs often produce rigid, low-diversity motions, that are unsuitable for human-like interaction. Alternatively, generative methods for co-speech gesture synthesis yield natural body gestures but depend on future speech context and require long run-times. To bridge this gap, we present MIBURI, the first online, causal framework for generating expressive full-body gestures and facial expressions synchronized with real-time spoken dialogue. We employ body-part aware gesture codecs that encode hierarchical motion details into multi-level discrete tokens. These tokens are then autoregressively generated by a two-dimensional causal framework conditioned on LLM-based speech-text embeddings, modeling both temporal dynamics and part-level motion hierarchy in real time. Further, we introduce auxiliary objectives to encourage expressive and diverse gestures while preventing convergence to static poses. Comparative evaluations demonstrate that our causal and real-time approach produces natural and contextually aligned gestures against recent baselines. We urge the reader to explore demo videos on https://vcai.mpi-inf.mpg.de/projects/MIBURI/.

MIBURI : Vers une synthèse gestuelle interactive expressive

MIBURI: Towards Expressive Interactive Gesture Synthesis

Résumé

Support