SOLAMI: Sociale Visie-Taal-Actie Modellering voor Meeslepende Interactie met 3D Autonome Karakters
SOLAMI: Social Vision-Language-Action Modeling for Immersive Interaction with 3D Autonomous Characters
November 29, 2024
Auteurs: Jianping Jiang, Weiye Xiao, Zhengyu Lin, Huaizhong Zhang, Tianxiang Ren, Yang Gao, Zhiqian Lin, Zhongang Cai, Lei Yang, Ziwei Liu
cs.AI
Samenvatting
Mensen zijn sociale dieren. Hoe 3D autonome personages uit te rusten met vergelijkbare sociale intelligentie die in staat zijn om mensen waar te nemen, te begrijpen en mee te interacteren, blijft een open maar fundamenteel probleem. In dit artikel introduceren we SOLAMI, het eerste end-to-end Sociale Visie-Taal-Actie (VLA) Modelleringskader voor meeslepende interactie met 3D autonome personages. Specifiek bouwt SOLAMI 3D autonome personages op drie aspecten: (1) Sociale VLA-architectuur: We stellen een verenigd sociaal VLA-kader voor om multimodale respons (spraak en beweging) te genereren op basis van de multimodale input van de gebruiker om het personage aan te sturen voor sociale interactie. (2) Interactieve Multimodale Gegevens: We presenteren SynMSI, een synthetische multimodale sociale interactiedataset gegenereerd door een automatisch proces met alleen bestaande bewegingsdatasets om het probleem van gegevensschaarste aan te pakken. (3) Meeslepende VR-interface: We ontwikkelen een VR-interface waarmee gebruikers op meeslepende wijze kunnen interacteren met deze personages die worden aangestuurd door verschillende architecturen. Uitgebreide kwantitatieve experimenten en gebruikersstudies tonen aan dat ons kader leidt tot nauwkeurigere en natuurlijkere karakterreacties (zowel in spraak als beweging) die overeenkomen met de verwachtingen van de gebruiker met lagere latentie.
English
Human beings are social animals. How to equip 3D autonomous characters with
similar social intelligence that can perceive, understand and interact with
humans remains an open yet foundamental problem. In this paper, we introduce
SOLAMI, the first end-to-end Social vision-Language-Action (VLA) Modeling
framework for Immersive interaction with 3D autonomous characters.
Specifically, SOLAMI builds 3D autonomous characters from three aspects: (1)
Social VLA Architecture: We propose a unified social VLA framework to generate
multimodal response (speech and motion) based on the user's multimodal input to
drive the character for social interaction. (2) Interactive Multimodal Data: We
present SynMSI, a synthetic multimodal social interaction dataset generated by
an automatic pipeline using only existing motion datasets to address the issue
of data scarcity. (3) Immersive VR Interface: We develop a VR interface that
enables users to immersively interact with these characters driven by various
architectures. Extensive quantitative experiments and user studies demonstrate
that our framework leads to more precise and natural character responses (in
both speech and motion) that align with user expectations with lower latency.