SARAH: Humanos Agentes en Tiempo Real con Conciencia Espacial

Resumen

A medida que los agentes corporizados se vuelven centrales en aplicaciones de realidad virtual, telepresencia y humanos digitales, su movimiento debe ir más allá de los gestos alineados con el habla: los agentes deben girar hacia los usuarios, responder a sus movimientos y mantener una mirada natural. Los métodos actuales carecen de esta conciencia espacial. Cerramos esta brecha con el primer método en tiempo real y completamente causal para movimiento conversacional espacialmente consciente, desplegable en un casco de VR de transmisión. Dada la posición de un usuario y el audio diádico, nuestro enfoque produce movimiento corporal completo que alinea los gestos con el habla mientras orienta al agente según el usuario. Nuestra arquitectura combina un VAE causal basado en transformers con tokens latentes entrelazados para inferencia en streaming y un modelo de flujo coincidente condicionado por la trayectoria del usuario y el audio. Para admitir diversas preferencias de mirada, introducimos un mecanismo de puntuación de la mirada con guía libre de clasificador para desacoplar el aprendizaje del control: el modelo captura la alineación espacial natural de los datos, mientras los usuarios pueden ajustar la intensidad del contacto visual en tiempo de inferencia. En el conjunto de datos Embody 3D, nuestro método logra una calidad de movimiento de vanguardia a más de 300 FPS — 3 veces más rápido que los métodos de referencia no causales — mientras captura la sutil dinámica espacial de la conversación natural. Validamos nuestro enfoque en un sistema de VR en vivo, llevando agentes conversacionales espacialmente conscientes a un despliegue en tiempo real. Consulte https://evonneng.github.io/sarah/ para más detalles.

English

As embodied agents become central to VR, telepresence, and digital human applications, their motion must go beyond speech-aligned gestures: agents should turn toward users, respond to their movement, and maintain natural gaze. Current methods lack this spatial awareness. We close this gap with the first real-time, fully causal method for spatially-aware conversational motion, deployable on a streaming VR headset. Given a user's position and dyadic audio, our approach produces full-body motion that aligns gestures with speech while orienting the agent according to the user. Our architecture combines a causal transformer-based VAE with interleaved latent tokens for streaming inference and a flow matching model conditioned on user trajectory and audio. To support varying gaze preferences, we introduce a gaze scoring mechanism with classifier-free guidance to decouple learning from control: the model captures natural spatial alignment from data, while users can adjust eye contact intensity at inference time. On the Embody 3D dataset, our method achieves state-of-the-art motion quality at over 300 FPS -- 3x faster than non-causal baselines -- while capturing the subtle spatial dynamics of natural conversation. We validate our approach on a live VR system, bringing spatially-aware conversational agents to real-time deployment. Please see https://evonneng.github.io/sarah/ for details.

SARAH: Humanos Agentes en Tiempo Real con Conciencia Espacial

SARAH: Spatially Aware Real-time Agentic Humans

Resumen

Support