SOLAMI: Soziale Vision-Sprache-Aktionsmodellierung für immersive Interaktion mit 3D-autonomen Charakteren
SOLAMI: Social Vision-Language-Action Modeling for Immersive Interaction with 3D Autonomous Characters
November 29, 2024
Autoren: Jianping Jiang, Weiye Xiao, Zhengyu Lin, Huaizhong Zhang, Tianxiang Ren, Yang Gao, Zhiqian Lin, Zhongang Cai, Lei Yang, Ziwei Liu
cs.AI
Zusammenfassung
Menschen sind soziale Tiere. Wie man 3D-autonome Charaktere mit ähnlicher sozialer Intelligenz ausstattet, die in der Lage sind, Menschen wahrzunehmen, zu verstehen und mit ihnen zu interagieren, bleibt ein offenes, aber grundlegendes Problem. In diesem Papier stellen wir SOLAMI vor, das erste End-to-End-Modellierungsframework für soziale Vision-Sprache-Handlungen (VLA) für immersive Interaktion mit 3D-autonomen Charakteren. Konkret baut SOLAMI 3D-autonome Charaktere aus drei Aspekten auf: (1) Soziale VLA-Architektur: Wir schlagen ein vereinheitlichtes soziales VLA-Framework vor, um eine multimodale Antwort (Sprache und Bewegung) basierend auf den multimodalen Eingaben des Benutzers zu generieren, um den Charakter für soziale Interaktion zu steuern. (2) Interaktive multimodale Daten: Wir präsentieren SynMSI, einen synthetischen multimodalen sozialen Interaktionsdatensatz, der durch eine automatische Pipeline unter Verwendung nur vorhandener Bewegungsdatensätze generiert wird, um das Problem des Datenmangels zu lösen. (3) Immersive VR-Schnittstelle: Wir entwickeln eine VR-Schnittstelle, die es Benutzern ermöglicht, mit diesen Charakteren immersiv zu interagieren, die von verschiedenen Architekturen gesteuert werden. Umfangreiche quantitative Experimente und Benutzerstudien zeigen, dass unser Framework zu präziseren und natürlicheren Charakterantworten (sowohl in Sprache als auch in Bewegung) führt, die mit den Benutzererwartungen bei geringerer Latenz übereinstimmen.
English
Human beings are social animals. How to equip 3D autonomous characters with
similar social intelligence that can perceive, understand and interact with
humans remains an open yet foundamental problem. In this paper, we introduce
SOLAMI, the first end-to-end Social vision-Language-Action (VLA) Modeling
framework for Immersive interaction with 3D autonomous characters.
Specifically, SOLAMI builds 3D autonomous characters from three aspects: (1)
Social VLA Architecture: We propose a unified social VLA framework to generate
multimodal response (speech and motion) based on the user's multimodal input to
drive the character for social interaction. (2) Interactive Multimodal Data: We
present SynMSI, a synthetic multimodal social interaction dataset generated by
an automatic pipeline using only existing motion datasets to address the issue
of data scarcity. (3) Immersive VR Interface: We develop a VR interface that
enables users to immersively interact with these characters driven by various
architectures. Extensive quantitative experiments and user studies demonstrate
that our framework leads to more precise and natural character responses (in
both speech and motion) that align with user expectations with lower latency.Summary
AI-Generated Summary