SARAH: 공간 인식 실시간 에이전트형 인간
SARAH: Spatially Aware Real-time Agentic Humans
February 20, 2026
저자: Evonne Ng, Siwei Zhang, Zhang Chen, Michael Zollhoefer, Alexander Richard
cs.AI
초록
구현된 에이전트가 VR, 원격 현신, 디지털 휴먼 애플리케이션의 핵심이 됨에 따라, 그들의 동작은 음성에 맞춘 제스처를 넘어서야 합니다: 에이전트는 사용자를 향해 돌아야 하며, 그들의 움직임에 반응하고, 자연스러운 시선을 유지해야 합니다. 기존 방법론은 이러한 공간 인식 능력이 부족합니다. 우리는 이 격차를 해소하기 위해 스트리밍 VR 헤드셋에 배포 가능한, 공간 인식 대화형 동작을 위한 최초의 실시간 완전 인과적 방법을 제안합니다. 사용자의 위치와 양자 간 오디오를 입력으로 하여, 우리의 접근 방식은 음성과 제스처를 정렬하면서 사용자에 따라 에이전트의 방향을 조정하는 전신 동작을 생성합니다. 우리의 아키텍처는 스트리밍 추론을 위한 인터리빙된 잠재 토큰을 가진 인과적 트랜스포머 기반 VAE와 사용자 궤적 및 오디오에 조건화된 플로우 매칭 모델을 결합합니다. 다양한 시선 선호도를 지원하기 위해, 우리는 학습과 제어를 분리하기 위해 분류자 없는 지도와 함께 시선 점수 메커니즘을 도입합니다: 모델은 데이터로부터 자연스러운 공간 정렬을 포착하는 동시에, 사용자는 추론 시간에 눈맞춤 강도를 조정할 수 있습니다. Embody 3D 데이터셋에서 우리의 방법은 300 FPS 이상의 최첨단 동작 품질을 달성하며(비인과적 기준선보다 3배 빠름), 자연스러운 대화의 미세한 공간 역동성을 포착합니다. 우리는 실시간 VR 시스템에서 우리의 접근 방식을 검증하며, 공간 인식 대화형 에이전트를 실시간 배포에 한 걸음 더 가까이 했습니다. 자세한 내용은 https://evonneng.github.io/sarah/ 를 참조하십시오.
English
As embodied agents become central to VR, telepresence, and digital human applications, their motion must go beyond speech-aligned gestures: agents should turn toward users, respond to their movement, and maintain natural gaze. Current methods lack this spatial awareness. We close this gap with the first real-time, fully causal method for spatially-aware conversational motion, deployable on a streaming VR headset. Given a user's position and dyadic audio, our approach produces full-body motion that aligns gestures with speech while orienting the agent according to the user. Our architecture combines a causal transformer-based VAE with interleaved latent tokens for streaming inference and a flow matching model conditioned on user trajectory and audio. To support varying gaze preferences, we introduce a gaze scoring mechanism with classifier-free guidance to decouple learning from control: the model captures natural spatial alignment from data, while users can adjust eye contact intensity at inference time. On the Embody 3D dataset, our method achieves state-of-the-art motion quality at over 300 FPS -- 3x faster than non-causal baselines -- while capturing the subtle spatial dynamics of natural conversation. We validate our approach on a live VR system, bringing spatially-aware conversational agents to real-time deployment. Please see https://evonneng.github.io/sarah/ for details.