САРА: Пространственно-осведомлённые агентные люди в реальном времени

Аннотация

По мере того как воплощенные агенты становятся ключевыми компонентами VR, телеприсутствия и приложений с цифровыми людьми, их движения должны выходить за рамки жестов, синхронизированных с речью: агенты должны поворачиваться к пользователям, реагировать на их перемещение и поддерживать естественный взгляд. Современные методы лишены такого пространственного восприятия. Мы устраняем этот пробел, предложив первый полностью причинный метод работы в реальном времени для пространственно-осознанного диалогового движения, пригодный для развертывания на потоковом VR-шлеме. На основе позиции пользователя и диалогового аудио наш подход генерирует полное телесное движение, которое синхронизирует жесты с речью и одновременно ориентирует агента относительно пользователя. Наша архитектура сочетает причинный VAE на основе трансформера с чередующимися латентными токенами для потокового вывода и модель согласования потоков, учитывающую траекторию пользователя и аудио. Для поддержки различных предпочтений по взгляду мы вводим механизм оценки взгляда с классификатор-фри гайдингом, чтобы разделить обучение и управление: модель усваивает естественное пространственное выравнивание из данных, а пользователи могут настраивать интенсивность зрительного контакта во время вывода. На наборе данных Embody 3D наш метод демонстрирует наилучшее качество движений при скорости свыше 300 кадров в секунду — в 3 раза быстрее, чем не причинные базовые методы — и при этом точно передает тонкие пространственные динамики естественного разговора. Мы проверяем наш подход на работающей VR-системе, обеспечивая развертывание пространственно-осознанных диалоговых агентов в реальном времени. Подробности см. по ссылке: https://evonneng.github.io/sarah/.

English

As embodied agents become central to VR, telepresence, and digital human applications, their motion must go beyond speech-aligned gestures: agents should turn toward users, respond to their movement, and maintain natural gaze. Current methods lack this spatial awareness. We close this gap with the first real-time, fully causal method for spatially-aware conversational motion, deployable on a streaming VR headset. Given a user's position and dyadic audio, our approach produces full-body motion that aligns gestures with speech while orienting the agent according to the user. Our architecture combines a causal transformer-based VAE with interleaved latent tokens for streaming inference and a flow matching model conditioned on user trajectory and audio. To support varying gaze preferences, we introduce a gaze scoring mechanism with classifier-free guidance to decouple learning from control: the model captures natural spatial alignment from data, while users can adjust eye contact intensity at inference time. On the Embody 3D dataset, our method achieves state-of-the-art motion quality at over 300 FPS -- 3x faster than non-causal baselines -- while capturing the subtle spatial dynamics of natural conversation. We validate our approach on a live VR system, bringing spatially-aware conversational agents to real-time deployment. Please see https://evonneng.github.io/sarah/ for details.

САРА: Пространственно-осведомлённые агентные люди в реальном времени

SARAH: Spatially Aware Real-time Agentic Humans

Аннотация

Support