MIBURI: К созданию выразительного синтеза интерактивных жестов

Аннотация

Воплощенные диалоговые агенты (ECAs) стремятся воспроизвести человеческое личное взаимодействие посредством речи, жестов и мимики. Современные диалоговые агенты на основе больших языковых моделей (LLM) лишены воплощения и выразительных жестов, необходимых для естественного взаимодействия. Существующие решения для ECAs часто производят жесткие, маловариативные движения, непригодные для человекоподобного общения. В качестве альтернативы, генеративные методы синтеза жестов, сопровождающих речь, создают естественные телодвижения, но зависят от будущего речевого контекста и требуют длительного времени обработки. Чтобы устранить этот разрыв, мы представляем MIBURI — первую онлайн-каузальную систему для генерации выразительных полнотелых жестов и мимики в реальном времени, синхронизированных с живым диалогом. Мы используем жестовые кодексы с учетом частей тела, которые кодируют иерархические детали движения в многоуровневые дискретные токены. Эти токены затем авторегрессивно генерируются двумерной каузальной системой, обусловленной текстово-речевыми эмбеддингами на основе LLM, моделируя как временную динамику, так и иерархию движений частей тела в реальном времени. Кроме того, мы вводим вспомогательные целевые функции для поощрения выразительных и разнообразных жестов, предотвращая сведение к статичным позам. Сравнительные оценки демонстрируют, что наш каузальный и работающий в реальном времени подход создает естественные и контекстуально согласованные жесты по сравнению с современными аналогами. Мы приглашаем читателя ознакомиться с демонстрационными видеороликами на https://vcai.mpi-inf.mpg.de/projects/MIBURI/.

English

Embodied Conversational Agents (ECAs) aim to emulate human face-to-face interaction through speech, gestures, and facial expressions. Current large language model (LLM)-based conversational agents lack embodiment and the expressive gestures essential for natural interaction. Existing solutions for ECAs often produce rigid, low-diversity motions, that are unsuitable for human-like interaction. Alternatively, generative methods for co-speech gesture synthesis yield natural body gestures but depend on future speech context and require long run-times. To bridge this gap, we present MIBURI, the first online, causal framework for generating expressive full-body gestures and facial expressions synchronized with real-time spoken dialogue. We employ body-part aware gesture codecs that encode hierarchical motion details into multi-level discrete tokens. These tokens are then autoregressively generated by a two-dimensional causal framework conditioned on LLM-based speech-text embeddings, modeling both temporal dynamics and part-level motion hierarchy in real time. Further, we introduce auxiliary objectives to encourage expressive and diverse gestures while preventing convergence to static poses. Comparative evaluations demonstrate that our causal and real-time approach produces natural and contextually aligned gestures against recent baselines. We urge the reader to explore demo videos on https://vcai.mpi-inf.mpg.de/projects/MIBURI/.

MIBURI: К созданию выразительного синтеза интерактивных жестов

MIBURI: Towards Expressive Interactive Gesture Synthesis

Аннотация

Support