SOLAMI: Моделирование социального видения-языка-действия для иммерсивного взаимодействия с трехмерными автономными персонажами
SOLAMI: Social Vision-Language-Action Modeling for Immersive Interaction with 3D Autonomous Characters
November 29, 2024
Авторы: Jianping Jiang, Weiye Xiao, Zhengyu Lin, Huaizhong Zhang, Tianxiang Ren, Yang Gao, Zhiqian Lin, Zhongang Cai, Lei Yang, Ziwei Liu
cs.AI
Аннотация
Человек - социальное животное. Как оборудовать трехмерных автономных персонажей с аналогичным социальным интеллектом, способных воспринимать, понимать и взаимодействовать с людьми, остается открытой, но фундаментальной проблемой. В этой статье мы представляем SOLAMI - первую полную модель социального видео-языково-действенного (VLA) моделирования для иммерсивного взаимодействия с трехмерными автономными персонажами. Конкретно, SOLAMI создает трехмерных автономных персонажей с трех точек зрения: (1) Архитектура социального VLA: Мы предлагаем унифицированную социальную VLA структуру для генерации мультимодального ответа (речь и движение) на основе мультимодального ввода пользователя для управления персонажем в социальном взаимодействии. (2) Интерактивные мультимодальные данные: Мы представляем SynMSI, синтетический мультимодальный набор данных социального взаимодействия, созданный автоматическим конвейером с использованием только существующих наборов данных о движениях, чтобы решить проблему нехватки данных. (3) Иммерсивный интерфейс виртуальной реальности: Мы разрабатываем интерфейс виртуальной реальности, позволяющий пользователям иммерсивно взаимодействовать с этими персонажами, управляемыми различными архитектурами. Обширные количественные эксперименты и пользовательские исследования демонстрируют, что наша структура приводит к более точным и естественным ответам персонажей (как в речи, так и в движении), соответствующим ожиданиям пользователя с более низкой задержкой.
English
Human beings are social animals. How to equip 3D autonomous characters with
similar social intelligence that can perceive, understand and interact with
humans remains an open yet foundamental problem. In this paper, we introduce
SOLAMI, the first end-to-end Social vision-Language-Action (VLA) Modeling
framework for Immersive interaction with 3D autonomous characters.
Specifically, SOLAMI builds 3D autonomous characters from three aspects: (1)
Social VLA Architecture: We propose a unified social VLA framework to generate
multimodal response (speech and motion) based on the user's multimodal input to
drive the character for social interaction. (2) Interactive Multimodal Data: We
present SynMSI, a synthetic multimodal social interaction dataset generated by
an automatic pipeline using only existing motion datasets to address the issue
of data scarcity. (3) Immersive VR Interface: We develop a VR interface that
enables users to immersively interact with these characters driven by various
architectures. Extensive quantitative experiments and user studies demonstrate
that our framework leads to more precise and natural character responses (in
both speech and motion) that align with user expectations with lower latency.Summary
AI-Generated Summary