SARAH: Agenti Umani Spazialmente Consapevoli in Tempo Reale

Abstract

Man mano che gli agenti incorporati diventano centrali nelle applicazioni di realtà virtuale, telepresenza e umani digitali, il loro movimento deve andare oltre i gesti allineati al parlato: gli agenti dovrebbero girarsi verso gli utenti, rispondere ai loro movimenti e mantenere uno sguardo naturale. I metodi attuali mancano di questa consapevolezza spaziale. Colmiamo questa lacuna con il primo metodo in tempo reale e completamente causale per il movimento conversazionale spazialmente consapevole, distribuibile su un visore VR in streaming. Dati la posizione di un utente e l'audio diadico, il nostro approccio produce un movimento corporeo completo che allinea i gesti al parlato orientando contemporaneamente l'agente in base all'utente. La nostra architettura combina un VAE basato su transformer causale con token latenti intercalati per l'inferenza in streaming e un modello di flusso condizionato sulla traiettoria dell'utente e sull'audio. Per supportare diverse preferenze di sguardo, introduciamo un meccanismo di punteggio dello sguardo con guida senza classificatore per disaccoppiare l'apprendimento dal controllo: il modello cattura l'allineamento spaziale naturale dai dati, mentre gli utenti possono regolare l'intensità del contatto visivo durante l'inferenza. Sul dataset Embody 3D, il nostro metodo raggiunge una qualità del movimento allo stato dell'arte a oltre 300 FPS — 3 volte più veloce dei baseline non causali — catturando le sottili dinamiche spaziali della conversazione naturale. Convalidiamo il nostro approccio su un sistema VR live, portando agenti conversazionali spazialmente consapevoli alla distribuzione in tempo reale. Per maggiori dettagli, consultare https://evonneng.github.io/sarah/.

English

As embodied agents become central to VR, telepresence, and digital human applications, their motion must go beyond speech-aligned gestures: agents should turn toward users, respond to their movement, and maintain natural gaze. Current methods lack this spatial awareness. We close this gap with the first real-time, fully causal method for spatially-aware conversational motion, deployable on a streaming VR headset. Given a user's position and dyadic audio, our approach produces full-body motion that aligns gestures with speech while orienting the agent according to the user. Our architecture combines a causal transformer-based VAE with interleaved latent tokens for streaming inference and a flow matching model conditioned on user trajectory and audio. To support varying gaze preferences, we introduce a gaze scoring mechanism with classifier-free guidance to decouple learning from control: the model captures natural spatial alignment from data, while users can adjust eye contact intensity at inference time. On the Embody 3D dataset, our method achieves state-of-the-art motion quality at over 300 FPS -- 3x faster than non-causal baselines -- while capturing the subtle spatial dynamics of natural conversation. We validate our approach on a live VR system, bringing spatially-aware conversational agents to real-time deployment. Please see https://evonneng.github.io/sarah/ for details.

SARAH: Agenti Umani Spazialmente Consapevoli in Tempo Reale

SARAH: Spatially Aware Real-time Agentic Humans

Abstract

Support