OmniStream: 연속 스트림에서의 인지, 재구성 및 행동 마스터링
OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams
March 12, 2026
저자: Yibin Yan, Jilan Xu, Shangzhe Di, Haoning Wu, Weidi Xie
cs.AI
초록
현대 시각 에이전트는 실시간 스트리밍 환경에서 작동하기 위해 일반적이고 인과적이며 물리적으로 구조화된 표현을 필요로 합니다. 그러나 현재의 시각 기초 모델들은 이미지 의미론적 인지, 오프라인 시간적 모델링, 공간 기하학 등으로 좁게 특화되어 분열된 상태를 유지하고 있습니다. 본 논문은 다양한 시각 입력으로부터 효과적으로 인지, 재구성 및 행동할 수 있는 통합 스트리밍 시각 백본인 OmniStream을 소개합니다. 인과적 시공간 주의 메커니즘과 3D 회전 위치 임베딩(3D-RoPE)을 도입함으로써, 우리 모델은 지속적인 KV 캐시를 통해 비디오 스트림의 효율적인 프레임 단위 온라인 처리를 지원합니다. 우리는 29개 데이터셋에 대해 정적 및 시간적 표현 학습, 스트리밍 기하학적 재구성, 그리고 시각-언어 정렬을 결합한 시너지 다중 작업 프레임워크를 사용하여 OmniStream을 사전 학습합니다. 광범위한 평가 결과, 백본을 엄격하게 고정한 상태에서도 OmniStream은 이미지 및 비디오 프로빙, 스트리밍 기하학적 재구성, 복잡한 비디오 및 공간 추론, 그리고 (학습 시 보지 않은) 로봇 매니툴레이션에 이르기까지 다양한 분야의 전문 모델들과 꾸준히 경쟁력 있는 성능을 달성합니다. 벤치마크별 최고 성능 추구보다는, 본 연구는 의미론적, 공간적, 시간적 추론을 아우르는 단일의 다목적 시각 백본을 학습하는 것이 실현 가능함을 입증합니다. 즉, 상호작용 및 구현 에이전트를 위한 범용 시각 이해로 나아가는 더 의미 있는 단계를 보여줍니다.
English
Modern visual agents require representations that are general, causal, and physically structured to operate in real-time streaming environments. However, current vision foundation models remain fragmented, specializing narrowly in image semantic perception, offline temporal modeling, or spatial geometry. This paper introduces OmniStream, a unified streaming visual backbone that effectively perceives, reconstructs, and acts from diverse visual inputs. By incorporating causal spatiotemporal attention and 3D rotary positional embeddings (3D-RoPE), our model supports efficient, frame-by-frame online processing of video streams via a persistent KV-cache. We pre-train OmniStream using a synergistic multi-task framework coupling static and temporal representation learning, streaming geometric reconstruction, and vision-language alignment on 29 datasets. Extensive evaluations show that, even with a strictly frozen backbone, OmniStream achieves consistently competitive performance with specialized experts across image and video probing, streaming geometric reconstruction, complex video and spatial reasoning, as well as robotic manipulation (unseen at training). Rather than pursuing benchmark-specific dominance, our work demonstrates the viability of training a single, versatile vision backbone that generalizes across semantic, spatial, and temporal reasoning, i.e., a more meaningful step toward general-purpose visual understanding for interactive and embodied agents.