SARAH: Ruimtelijk Bewuste Real-time Agente Mensen

Samenvatting

Naarmate belichaamde agents een centrale rol gaan spelen in VR, telepresence en digitale mens-toepassingen, moet hun beweging verder gaan dan spraak-gebarende gebaren: agents moeten zich naar gebruikers toedraaien, reageren op hun bewegingen en een natuurlijke blikrichting behouden. Huidige methoden missen dit ruimtelijk bewustzijn. Wij dichten deze kloof met de eerste real-time, volledig causale methode voor ruimtelijk bewuste conversatiebeweging, die inzetbaar is op een streaming VR-headset. Gebaseerd op de positie van een gebruiker en dyadische audio, produceert onze aanpak volledige lichaamsbeweging die gebaren afstemt op spraak, terwijl de agent zich oriënteert volgens de gebruiker. Onze architectuur combineert een causale transformer-gebaseerde VAE met geïnterleefde latente tokens voor streaming inferentie en een flow matching-model geconditioneerd op gebruikersbaan en audio. Om variërende blikvoorkeuren te ondersteunen, introduceren we een blikscoringsmechanisme met classifier-free guidance om leren van controle te ontkoppelen: het model legt natuurlijke ruimtelijke afstemming vast uit data, terwijl gebruikers de intensiteit van oogcontact tijdens inferentie kunnen aanpassen. Op de Embody 3D-dataset behaalt onze methode state-of-the-art beweegkwaliteit met meer dan 300 FPS – 3x sneller dan niet-causale benchmarks – en vangt tegelijk de subtiele ruimtelijke dynamiek van natuurlijke conversatie. Wij valideren onze aanpak op een live VR-systeem, waardoor ruimtelijk bewuste conversatieagents real-time inzetbaar worden. Zie https://evonneng.github.io/sarah/ voor details.

English

As embodied agents become central to VR, telepresence, and digital human applications, their motion must go beyond speech-aligned gestures: agents should turn toward users, respond to their movement, and maintain natural gaze. Current methods lack this spatial awareness. We close this gap with the first real-time, fully causal method for spatially-aware conversational motion, deployable on a streaming VR headset. Given a user's position and dyadic audio, our approach produces full-body motion that aligns gestures with speech while orienting the agent according to the user. Our architecture combines a causal transformer-based VAE with interleaved latent tokens for streaming inference and a flow matching model conditioned on user trajectory and audio. To support varying gaze preferences, we introduce a gaze scoring mechanism with classifier-free guidance to decouple learning from control: the model captures natural spatial alignment from data, while users can adjust eye contact intensity at inference time. On the Embody 3D dataset, our method achieves state-of-the-art motion quality at over 300 FPS -- 3x faster than non-causal baselines -- while capturing the subtle spatial dynamics of natural conversation. We validate our approach on a live VR system, bringing spatially-aware conversational agents to real-time deployment. Please see https://evonneng.github.io/sarah/ for details.

SARAH: Ruimtelijk Bewuste Real-time Agente Mensen

SARAH: Spatially Aware Real-time Agentic Humans

Samenvatting

Support