MIBURI: Auf dem Weg zur ausdrucksstarken interaktiven Gestensynthese
MIBURI: Towards Expressive Interactive Gesture Synthesis
March 3, 2026
Autoren: M. Hamza Mughal, Rishabh Dabral, Vera Demberg, Christian Theobalt
cs.AI
Zusammenfassung
Embodied Conversational Agents (ECAs) zielen darauf ab, menschliche Face-to-Face-Interaktion durch Sprache, Gesten und Gesichtsausdrücke nachzubilden. Aktuelle, auf großen Sprachmodellen (LLMs) basierende Konversationsagenten verfügen jedoch nicht über eine Verkörperung und die für natürliche Interaktion wesentlichen ausdrucksstarken Gesten. Bestehende Lösungen für ECAs erzeugen oft steife Bewegungen mit geringer Diversität, die für eine menschenähnliche Interaktion ungeeignet sind. Alternativ erzeugen generative Methoden zur sprachbegleitenden Gestensynthese zwar natürliche Körpergesten, sind jedoch von zukünftigem Sprachkontext abhängig und benötigen lange Laufzeiten. Um diese Lücke zu schließen, stellen wir MIBURI vor, das erste online-fähige, kausale Framework zur Erzeugung ausdrucksstarker Ganzkörpergesten und Gesichtsausdrücke, die mit gesprochenen Dialogen in Echtzeit synchronisiert sind. Wir setzen körperteil-sensitive Gesten-Codecs ein, die hierarchische Bewegungsdetails in mehrstufige diskrete Tokens kodieren. Diese Tokens werden dann autoregressiv von einem zweidimensionalen kausalen Framework generiert, das auf textbasierten Embeddings eines LLM konditioniert ist und sowohl zeitliche Dynamiken als auch die Bewegungshierarchie auf Teilkörper-Ebene in Echtzeit modelliert. Darüber hinaus führen wir Hilfsziele ein, um ausdrucksstarke und vielfältige Gesten zu fördern und gleichzeitig eine Konvergenz zu statischen Posen zu verhindern. Vergleichende Evaluationen zeigen, dass unser kausaler und echtzeitfähiger Ansatz im Vergleich zu aktuellen Baseline-Methoden natürliche und kontextuell passende Gesten erzeugt. Wir laden den Leser ein, die Demo-Videos auf https://vcai.mpi-inf.mpg.de/projects/MIBURI/ zu erkunden.
English
Embodied Conversational Agents (ECAs) aim to emulate human face-to-face interaction through speech, gestures, and facial expressions. Current large language model (LLM)-based conversational agents lack embodiment and the expressive gestures essential for natural interaction. Existing solutions for ECAs often produce rigid, low-diversity motions, that are unsuitable for human-like interaction. Alternatively, generative methods for co-speech gesture synthesis yield natural body gestures but depend on future speech context and require long run-times. To bridge this gap, we present MIBURI, the first online, causal framework for generating expressive full-body gestures and facial expressions synchronized with real-time spoken dialogue. We employ body-part aware gesture codecs that encode hierarchical motion details into multi-level discrete tokens. These tokens are then autoregressively generated by a two-dimensional causal framework conditioned on LLM-based speech-text embeddings, modeling both temporal dynamics and part-level motion hierarchy in real time. Further, we introduce auxiliary objectives to encourage expressive and diverse gestures while preventing convergence to static poses. Comparative evaluations demonstrate that our causal and real-time approach produces natural and contextually aligned gestures against recent baselines. We urge the reader to explore demo videos on https://vcai.mpi-inf.mpg.de/projects/MIBURI/.