SOLAMI: Modelado Social de Visión-Lenguaje-Acción para Interacción Inmersiva con Personajes Autónomos en 3D
SOLAMI: Social Vision-Language-Action Modeling for Immersive Interaction with 3D Autonomous Characters
November 29, 2024
Autores: Jianping Jiang, Weiye Xiao, Zhengyu Lin, Huaizhong Zhang, Tianxiang Ren, Yang Gao, Zhiqian Lin, Zhongang Cai, Lei Yang, Ziwei Liu
cs.AI
Resumen
Los seres humanos son animales sociales. Cómo equipar a los personajes autónomos en 3D con una inteligencia social similar que les permita percibir, comprender e interactuar con los humanos sigue siendo un problema abierto pero fundamental. En este documento, presentamos SOLAMI, el primer marco de Modelado Social Visión-Lenguaje-Acción (VLA, por sus siglas en inglés) de extremo a extremo para la interacción inmersiva con personajes autónomos en 3D. Específicamente, SOLAMI construye personajes autónomos en 3D desde tres aspectos: (1) Arquitectura Social VLA: Proponemos un marco unificado de VLA social para generar respuestas multimodales (habla y movimiento) basadas en la entrada multimodal del usuario para guiar al personaje en la interacción social. (2) Datos Multimodales Interactivos: Presentamos SynMSI, un conjunto de datos sintéticos de interacción social multimodal generado por un pipeline automático utilizando solo conjuntos de datos de movimiento existentes para abordar el problema de escasez de datos. (3) Interfaz de Realidad Virtual Inmersiva: Desarrollamos una interfaz de RV que permite a los usuarios interactuar de manera inmersiva con estos personajes guiados por diversas arquitecturas. Experimentos cuantitativos extensos y estudios de usuarios demuestran que nuestro marco conduce a respuestas de personajes más precisas y naturales (tanto en habla como en movimiento) que se alinean con las expectativas del usuario con una menor latencia.
English
Human beings are social animals. How to equip 3D autonomous characters with
similar social intelligence that can perceive, understand and interact with
humans remains an open yet foundamental problem. In this paper, we introduce
SOLAMI, the first end-to-end Social vision-Language-Action (VLA) Modeling
framework for Immersive interaction with 3D autonomous characters.
Specifically, SOLAMI builds 3D autonomous characters from three aspects: (1)
Social VLA Architecture: We propose a unified social VLA framework to generate
multimodal response (speech and motion) based on the user's multimodal input to
drive the character for social interaction. (2) Interactive Multimodal Data: We
present SynMSI, a synthetic multimodal social interaction dataset generated by
an automatic pipeline using only existing motion datasets to address the issue
of data scarcity. (3) Immersive VR Interface: We develop a VR interface that
enables users to immersively interact with these characters driven by various
architectures. Extensive quantitative experiments and user studies demonstrate
that our framework leads to more precise and natural character responses (in
both speech and motion) that align with user expectations with lower latency.Summary
AI-Generated Summary