SARAH : Agents Humains Spatiaux en Temps Réel

Résumé

Alors que les agents incarnés deviennent centraux dans les applications de réalité virtuelle, de téléprésence et d’humains numériques, leurs mouvements doivent dépasser les gestes synchronisés avec la parole : les agents doivent se tourner vers les utilisateurs, répondre à leurs déplacements et maintenir un regard naturel. Les méthodes actuelles manquent de cette conscience spatiale. Nous comblons cette lacune avec la première méthode temps réel entièrement causale pour un mouvement conversationnel spatialement conscient, déployable sur un casque VR en streaming. À partir de la position d’un utilisateur et d’un signal audio dyadique, notre approche génère un mouvement corporel complet qui synchronise les gestes avec la parole tout en orientant l’agent en fonction de l’utilisateur. Notre architecture combine un VAE à base de transformateur causal avec des tokens latents entrelacés pour l’inférence en flux continu, et un modèle de *flow matching* conditionné par la trajectoire de l’utilisateur et l’audio. Pour prendre en compte différentes préférences de regard, nous introduisons un mécanisme de score du regard avec guidage *classifier-free* afin de découpler l’apprentissage du contrôle : le modèle capture l’alignement spatial naturel à partir des données, tandis que les utilisateurs peuvent ajuster l’intensité du contact visuel au moment de l’inférence. Sur le jeu de données Embody 3D, notre méthode atteint une qualité de mouvement à l’état de l’art à plus de 300 FPS — soit 3 fois plus rapide que les méthodes de référence non causales — tout en capturant la dynamique spatiale subtile des conversations naturelles. Nous validons notre approche sur un système VR en direct, permettant le déploiement en temps réel d’agents conversationnels spatialement conscients. Pour plus de détails, consultez https://evonneng.github.io/sarah/.

English

As embodied agents become central to VR, telepresence, and digital human applications, their motion must go beyond speech-aligned gestures: agents should turn toward users, respond to their movement, and maintain natural gaze. Current methods lack this spatial awareness. We close this gap with the first real-time, fully causal method for spatially-aware conversational motion, deployable on a streaming VR headset. Given a user's position and dyadic audio, our approach produces full-body motion that aligns gestures with speech while orienting the agent according to the user. Our architecture combines a causal transformer-based VAE with interleaved latent tokens for streaming inference and a flow matching model conditioned on user trajectory and audio. To support varying gaze preferences, we introduce a gaze scoring mechanism with classifier-free guidance to decouple learning from control: the model captures natural spatial alignment from data, while users can adjust eye contact intensity at inference time. On the Embody 3D dataset, our method achieves state-of-the-art motion quality at over 300 FPS -- 3x faster than non-causal baselines -- while capturing the subtle spatial dynamics of natural conversation. We validate our approach on a live VR system, bringing spatially-aware conversational agents to real-time deployment. Please see https://evonneng.github.io/sarah/ for details.

SARAH : Agents Humains Spatiaux en Temps Réel

SARAH: Spatially Aware Real-time Agentic Humans

Résumé

Support