ChatPaper.aiChatPaper

SOLAMI: 3D自律キャラクターとの没入型インタラクションのためのソーシャルビジョン言語行動モデリング

SOLAMI: Social Vision-Language-Action Modeling for Immersive Interaction with 3D Autonomous Characters

November 29, 2024
著者: Jianping Jiang, Weiye Xiao, Zhengyu Lin, Huaizhong Zhang, Tianxiang Ren, Yang Gao, Zhiqian Lin, Zhongang Cai, Lei Yang, Ziwei Liu
cs.AI

要旨

人間は社会的な動物です。3Dの自律キャラクターに同様の社会的知能を備えさせ、人間と知覚、理解、相互作用できるようにする方法は、未解決の基本的な問題です。本論文では、3Dの自律キャラクターとの没入型相互作用のための最初のエンドツーエンドのソーシャルビジョン・ランゲージ・アクション(VLA)モデリングフレームワークであるSOLAMIを紹介します。具体的には、SOLAMIは3つの側面から3Dの自律キャラクターを構築します:(1)ソーシャルVLAアーキテクチャ:ユーザーの多様な入力に基づいて多様な応答(音声と動作)を生成し、キャラクターを社会的相互作用に駆動させるための統一されたソーシャルVLAフレームワークを提案します。(2)インタラクティブな多様なデータ:データの不足問題に対処するために、既存の動作データセットのみを使用して自動パイプラインによって生成された合成多様なソーシャルインタラクションデータセットであるSynMSIを提示します。(3)没入型VRインタフェース:様々なアーキテクチャによって駆動されるこれらのキャラクターと没入的に相互作用できるVRインタフェースを開発します。包括的な定量的実験とユーザースタディにより、当社のフレームワークが、ユーザーの期待に合致し、より正確で自然なキャラクターの応答(音声と動作の両方)を低遅延でもたらすことが示されています。
English
Human beings are social animals. How to equip 3D autonomous characters with similar social intelligence that can perceive, understand and interact with humans remains an open yet foundamental problem. In this paper, we introduce SOLAMI, the first end-to-end Social vision-Language-Action (VLA) Modeling framework for Immersive interaction with 3D autonomous characters. Specifically, SOLAMI builds 3D autonomous characters from three aspects: (1) Social VLA Architecture: We propose a unified social VLA framework to generate multimodal response (speech and motion) based on the user's multimodal input to drive the character for social interaction. (2) Interactive Multimodal Data: We present SynMSI, a synthetic multimodal social interaction dataset generated by an automatic pipeline using only existing motion datasets to address the issue of data scarcity. (3) Immersive VR Interface: We develop a VR interface that enables users to immersively interact with these characters driven by various architectures. Extensive quantitative experiments and user studies demonstrate that our framework leads to more precise and natural character responses (in both speech and motion) that align with user expectations with lower latency.

Summary

AI-Generated Summary

PDF232December 3, 2024