SOLAMI: Modelagem Social de Visão-Linguagem-Ação para Interação Imersiva com Personagens Autônomos 3D
SOLAMI: Social Vision-Language-Action Modeling for Immersive Interaction with 3D Autonomous Characters
November 29, 2024
Autores: Jianping Jiang, Weiye Xiao, Zhengyu Lin, Huaizhong Zhang, Tianxiang Ren, Yang Gao, Zhiqian Lin, Zhongang Cai, Lei Yang, Ziwei Liu
cs.AI
Resumo
Os seres humanos são animais sociais. Como equipar personagens autônomos em 3D com inteligência social semelhante, capazes de perceber, compreender e interagir com humanos, continua sendo um problema aberto, porém fundamental. Neste artigo, apresentamos SOLAMI, o primeiro framework de Modelagem Social visão-linguagem-ação (VLA) de ponta a ponta para interação imersiva com personagens autônomos em 3D. Especificamente, SOLAMI constrói personagens autônomos em 3D a partir de três aspectos: (1) Arquitetura Social VLA: Propomos um framework unificado de VLA social para gerar respostas multimodais (fala e movimento) com base na entrada multimodal do usuário para conduzir o personagem na interação social. (2) Dados Multimodais Interativos: Apresentamos SynMSI, um conjunto de dados de interação social multimodal sintético gerado por um pipeline automático usando apenas conjuntos de dados de movimento existentes para lidar com a questão da escassez de dados. (3) Interface de Realidade Virtual Imersiva: Desenvolvemos uma interface de RV que permite aos usuários interagir de forma imersiva com esses personagens conduzidos por várias arquiteturas. Experimentos quantitativos extensivos e estudos de usuários demonstram que nosso framework resulta em respostas de personagens mais precisas e naturais (tanto na fala quanto no movimento) que estão alinhadas com as expectativas do usuário, com menor latência.
English
Human beings are social animals. How to equip 3D autonomous characters with
similar social intelligence that can perceive, understand and interact with
humans remains an open yet foundamental problem. In this paper, we introduce
SOLAMI, the first end-to-end Social vision-Language-Action (VLA) Modeling
framework for Immersive interaction with 3D autonomous characters.
Specifically, SOLAMI builds 3D autonomous characters from three aspects: (1)
Social VLA Architecture: We propose a unified social VLA framework to generate
multimodal response (speech and motion) based on the user's multimodal input to
drive the character for social interaction. (2) Interactive Multimodal Data: We
present SynMSI, a synthetic multimodal social interaction dataset generated by
an automatic pipeline using only existing motion datasets to address the issue
of data scarcity. (3) Immersive VR Interface: We develop a VR interface that
enables users to immersively interact with these characters driven by various
architectures. Extensive quantitative experiments and user studies demonstrate
that our framework leads to more precise and natural character responses (in
both speech and motion) that align with user expectations with lower latency.