MIBURI: Op weg naar expressieve interactieve gebaarsynthese

Samenvatting

Belichaamde Conversatie Agents (ECA's) streven ernaar menselijke face-to-face interactie na te bootsen door middel van spraak, gebaren en gezichtsuitdrukkingen. Huidige op grote taalmodellen (LLM) gebaseerde conversatieagentschappen missen belichaming en de expressieve gebaren die essentieel zijn voor natuurlijke interactie. Bestaande oplossingen voor ECA's produceren vaak rigide, weinig gevarieerde bewegingen die ongeschikt zijn voor mensachtige interactie. Generatieve methoden voor de synthese van spraak-ondersteunende gebaren leveren daarentegen wel natuurlijke lichaamsgebaren op, maar zijn afhankelijk van toekomstige spraakcontext en vereisen lange uitvoeringstijden. Om deze kloof te overbruggen, presenteren wij MIBURI, het eerste online, causale framework voor het genereren van expressieve volledige lichaamsgebaren en gezichtsuitdrukkingen gesynchroniseerd met real-time gesproken dialoog. Wij gebruiken lichaamsdeel-bewuste gebarencodecs die hiërarchische bewegingsdetails coderen in meerniveau discrete tokens. Deze tokens worden vervolgens autoregressief gegenereerd door een tweedimensionaal causaal framework, geconditioneerd op op LLM gebaseerde spraak-tekst embeddings, waarbij zowel temporele dynamiek als beweginghiërarchie op deel-niveau in realtime wordt gemodelleerd. Verder introduceren wij hulpdoelstellingen om expressieve en gevarieerde gebaren te stimuleren en convergentie naar statische poses te voorkomen. Vergelijkende evaluaties tonen aan dat onze causale en real-time aanpak natuurlijke en contextueel afgestemde gebaren produceert in vergelijking met recente baselines. Wij nodigen de lezer uit om de demovideo's te bekijken op https://vcai.mpi-inf.mpg.de/projects/MIBURI/.

English

Embodied Conversational Agents (ECAs) aim to emulate human face-to-face interaction through speech, gestures, and facial expressions. Current large language model (LLM)-based conversational agents lack embodiment and the expressive gestures essential for natural interaction. Existing solutions for ECAs often produce rigid, low-diversity motions, that are unsuitable for human-like interaction. Alternatively, generative methods for co-speech gesture synthesis yield natural body gestures but depend on future speech context and require long run-times. To bridge this gap, we present MIBURI, the first online, causal framework for generating expressive full-body gestures and facial expressions synchronized with real-time spoken dialogue. We employ body-part aware gesture codecs that encode hierarchical motion details into multi-level discrete tokens. These tokens are then autoregressively generated by a two-dimensional causal framework conditioned on LLM-based speech-text embeddings, modeling both temporal dynamics and part-level motion hierarchy in real time. Further, we introduce auxiliary objectives to encourage expressive and diverse gestures while preventing convergence to static poses. Comparative evaluations demonstrate that our causal and real-time approach produces natural and contextually aligned gestures against recent baselines. We urge the reader to explore demo videos on https://vcai.mpi-inf.mpg.de/projects/MIBURI/.

MIBURI: Op weg naar expressieve interactieve gebaarsynthese

MIBURI: Towards Expressive Interactive Gesture Synthesis

Samenvatting

Support