SARAH: Agentes Humanos Espacialmente Conscientes em Tempo Real

Resumo

À medida que os agentes corporificados se tornam centrais para aplicações de realidade virtual, telepresença e humanos digitais, seus movimentos devem ir além de gestos alinhados à fala: os agentes devem virar-se em direção aos usuários, responder aos seus movimentos e manter um olhar natural. Os métodos atuais carecem dessa consciência espacial. Nós preenchemos essa lacuna com o primeiro método totalmente causal e em tempo real para movimento conversacional espacialmente consciente, implantável em um headset de VR em streaming. Dada a posição do usuário e o áudio diádico, nossa abordagem produz movimento corporal completo que alinha gestos com a fala enquanto orienta o agente de acordo com o usuário. Nossa arquitetura combina um VAE baseado em transformer causal com tokens latentes intercalados para inferência em streaming e um modelo de correspondência de fluxo condicionado na trajetória do usuário e no áudio. Para acomodar diferentes preferências de olhar, introduzimos um mecanismo de pontuação de gaze com orientação livre de classificador para desacoplar aprendizado de controle: o modelo captura o alinhamento espacial natural dos dados, enquanto os usuários podem ajustar a intensidade do contato visual no momento da inferência. No conjunto de dados Embody 3D, nosso método alcança qualidade de movimento state-of-the-art a mais de 300 FPS — 3x mais rápido que baselines não-causais — enquanto captura as dinâmicas espaciais sutis da conversa natural. Validamos nossa abordagem em um sistema de VR ao vivo, trazendo agentes conversacionais espacialmente conscientes para implantação em tempo real. Para detalhes, consulte https://evonneng.github.io/sarah/.

English

As embodied agents become central to VR, telepresence, and digital human applications, their motion must go beyond speech-aligned gestures: agents should turn toward users, respond to their movement, and maintain natural gaze. Current methods lack this spatial awareness. We close this gap with the first real-time, fully causal method for spatially-aware conversational motion, deployable on a streaming VR headset. Given a user's position and dyadic audio, our approach produces full-body motion that aligns gestures with speech while orienting the agent according to the user. Our architecture combines a causal transformer-based VAE with interleaved latent tokens for streaming inference and a flow matching model conditioned on user trajectory and audio. To support varying gaze preferences, we introduce a gaze scoring mechanism with classifier-free guidance to decouple learning from control: the model captures natural spatial alignment from data, while users can adjust eye contact intensity at inference time. On the Embody 3D dataset, our method achieves state-of-the-art motion quality at over 300 FPS -- 3x faster than non-causal baselines -- while capturing the subtle spatial dynamics of natural conversation. We validate our approach on a live VR system, bringing spatially-aware conversational agents to real-time deployment. Please see https://evonneng.github.io/sarah/ for details.

SARAH: Agentes Humanos Espacialmente Conscientes em Tempo Real

SARAH: Spatially Aware Real-time Agentic Humans

Resumo

Support