MIBURI: Rumo à Síntese Expressiva de Gestos Interativos

Resumo

Os Agentes de Conversação Corporificados (ECAs) visam emular a interação humana face a face através da fala, gestos e expressões faciais. Os atuais agentes de conversação baseados em modelos de linguagem de grande escala (LLMs) carecem de corporificação e dos gestos expressivos essenciais para uma interação natural. As soluções existentes para ECAs frequentemente produzem movimentos rígidos e de baixa diversidade, inadequados para interações humanizadas. Alternativamente, os métodos generativos para síntese de gestos co-verbais produzem gestos corporais naturais, mas dependem do contexto de fala futuro e exigem longos tempos de execução. Para preencher esta lacuna, apresentamos o MIBURI, o primeiro framework causal e online para geração de gestos expressivos de corpo inteiro e expressões faciais sincronizados com diálogo falado em tempo real. Empregamos codecs gestuais conscientes das partes do corpo que codificam detalhes hierárquicos de movimento em tokens multinível. Estes tokens são então gerados autoregressivamente por um framework causal bidimensional condicionado em embeddings de texto-fala baseados em LLMs, modelando tanto a dinâmica temporal quanto a hierarquia de movimento a nível de partes em tempo real. Adicionalmente, introduzimos objetivos auxiliares para incentivar gestos expressivos e diversificados, evitando a convergência para poses estáticas. Avaliações comparativas demonstram que a nossa abordagem causal e em tempo real produz gestos naturais e contextualmente alinhados em comparação com bases de referência recentes. Incentivamos o leitor a explorar os vídeos de demonstração em https://vcai.mpi-inf.mpg.de/projects/MIBURI/.

English

Embodied Conversational Agents (ECAs) aim to emulate human face-to-face interaction through speech, gestures, and facial expressions. Current large language model (LLM)-based conversational agents lack embodiment and the expressive gestures essential for natural interaction. Existing solutions for ECAs often produce rigid, low-diversity motions, that are unsuitable for human-like interaction. Alternatively, generative methods for co-speech gesture synthesis yield natural body gestures but depend on future speech context and require long run-times. To bridge this gap, we present MIBURI, the first online, causal framework for generating expressive full-body gestures and facial expressions synchronized with real-time spoken dialogue. We employ body-part aware gesture codecs that encode hierarchical motion details into multi-level discrete tokens. These tokens are then autoregressively generated by a two-dimensional causal framework conditioned on LLM-based speech-text embeddings, modeling both temporal dynamics and part-level motion hierarchy in real time. Further, we introduce auxiliary objectives to encourage expressive and diverse gestures while preventing convergence to static poses. Comparative evaluations demonstrate that our causal and real-time approach produces natural and contextually aligned gestures against recent baselines. We urge the reader to explore demo videos on https://vcai.mpi-inf.mpg.de/projects/MIBURI/.

MIBURI: Rumo à Síntese Expressiva de Gestos Interativos

MIBURI: Towards Expressive Interactive Gesture Synthesis

Resumo

Support