MIBURI: Hacia una Síntesis Expresiva de Gestos Interactivos

Resumen

Los Agentes Conversacionales Corporizados (ECA) buscan emular la interacción humana cara a cara mediante el habla, los gestos y las expresiones faciales. Los agentes conversacionales actuales basados en modelos de lenguaje extenso (LLM) carecen de corporalidad y de los gestos expresivos esenciales para una interacción natural. Las soluciones existentes para los ECA a menudo producen movimientos rígidos y de baja diversidad, inadecuados para una interacción similar a la humana. Alternativamente, los métodos generativos para la síntesis de gestos co-verbal producen gestos corporales naturales, pero dependen del contexto del habla futuro y requieren largos tiempos de ejecución. Para cerrar esta brecha, presentamos MIBURI, el primer marco causal y en línea para generar gestos expresivos de cuerpo completo y expresiones faciales sincronizados con el diálogo hablado en tiempo real. Empleamos códecs de gestos conscientes de las partes del cuerpo que codifican detalles de movimiento jerárquicos en tokens discretos multinivel. Estos tokens son generados de forma autoregresiva por un marco causal bidimensional condicionado a las incrustaciones de texto-habla basadas en LLM, modelando tanto la dinámica temporal como la jerarquía de movimiento a nivel de partes en tiempo real. Además, introducimos objetivos auxiliares para fomentar gestos expresivos y diversos, evitando la convergencia a poses estáticas. Las evaluaciones comparativas demuestran que nuestro enfoque causal y en tiempo real produce gestos naturales y contextualmente alineados en comparación con líneas de base recientes. Invitamos al lector a explorar los videos de demostración en https://vcai.mpi-inf.mpg.de/projects/MIBURI/.

English

Embodied Conversational Agents (ECAs) aim to emulate human face-to-face interaction through speech, gestures, and facial expressions. Current large language model (LLM)-based conversational agents lack embodiment and the expressive gestures essential for natural interaction. Existing solutions for ECAs often produce rigid, low-diversity motions, that are unsuitable for human-like interaction. Alternatively, generative methods for co-speech gesture synthesis yield natural body gestures but depend on future speech context and require long run-times. To bridge this gap, we present MIBURI, the first online, causal framework for generating expressive full-body gestures and facial expressions synchronized with real-time spoken dialogue. We employ body-part aware gesture codecs that encode hierarchical motion details into multi-level discrete tokens. These tokens are then autoregressively generated by a two-dimensional causal framework conditioned on LLM-based speech-text embeddings, modeling both temporal dynamics and part-level motion hierarchy in real time. Further, we introduce auxiliary objectives to encourage expressive and diverse gestures while preventing convergence to static poses. Comparative evaluations demonstrate that our causal and real-time approach produces natural and contextually aligned gestures against recent baselines. We urge the reader to explore demo videos on https://vcai.mpi-inf.mpg.de/projects/MIBURI/.

MIBURI: Hacia una Síntesis Expresiva de Gestos Interactivos

MIBURI: Towards Expressive Interactive Gesture Synthesis

Resumen

Support