SOLAMI : Modélisation sociale de la vision-langage-action pour une interaction immersive avec des personnages autonomes en 3D
SOLAMI: Social Vision-Language-Action Modeling for Immersive Interaction with 3D Autonomous Characters
November 29, 2024
Auteurs: Jianping Jiang, Weiye Xiao, Zhengyu Lin, Huaizhong Zhang, Tianxiang Ren, Yang Gao, Zhiqian Lin, Zhongang Cai, Lei Yang, Ziwei Liu
cs.AI
Résumé
Les êtres humains sont des animaux sociaux. Comment équiper les personnages autonomes en 3D d'une intelligence sociale similaire leur permettant de percevoir, comprendre et interagir avec les humains reste un problème ouvert mais fondamental. Dans cet article, nous présentons SOLAMI, le premier cadre de modélisation Vision-Langage-Action sociale de bout en bout (VLA) pour une interaction immersive avec des personnages autonomes en 3D. Plus précisément, SOLAMI construit des personnages autonomes en 3D selon trois aspects : (1) Architecture sociale VLA : Nous proposons un cadre social VLA unifié pour générer une réponse multimodale (parole et mouvement) basée sur l'entrée multimodale de l'utilisateur pour conduire le personnage dans l'interaction sociale. (2) Données multimodales interactives : Nous présentons SynMSI, un ensemble de données d'interaction sociale multimodale synthétique généré par un pipeline automatique utilisant uniquement des ensembles de données de mouvement existants pour résoudre le problème de la rareté des données. (3) Interface VR immersive : Nous développons une interface VR qui permet aux utilisateurs d'interagir de manière immersive avec ces personnages pilotés par diverses architectures. Des expériences quantitatives approfondies et des études utilisateur démontrent que notre cadre conduit à des réponses de personnage plus précises et naturelles (à la fois en parole et en mouvement) qui correspondent aux attentes des utilisateurs avec une latence plus faible.
English
Human beings are social animals. How to equip 3D autonomous characters with
similar social intelligence that can perceive, understand and interact with
humans remains an open yet foundamental problem. In this paper, we introduce
SOLAMI, the first end-to-end Social vision-Language-Action (VLA) Modeling
framework for Immersive interaction with 3D autonomous characters.
Specifically, SOLAMI builds 3D autonomous characters from three aspects: (1)
Social VLA Architecture: We propose a unified social VLA framework to generate
multimodal response (speech and motion) based on the user's multimodal input to
drive the character for social interaction. (2) Interactive Multimodal Data: We
present SynMSI, a synthetic multimodal social interaction dataset generated by
an automatic pipeline using only existing motion datasets to address the issue
of data scarcity. (3) Immersive VR Interface: We develop a VR interface that
enables users to immersively interact with these characters driven by various
architectures. Extensive quantitative experiments and user studies demonstrate
that our framework leads to more precise and natural character responses (in
both speech and motion) that align with user expectations with lower latency.Summary
AI-Generated Summary