ChatPaper.aiChatPaper

オムニストリーム:連続ストリームにおける知覚・再構成・行動のマスタリング

OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams

March 12, 2026
著者: Yibin Yan, Jilan Xu, Shangzhe Di, Haoning Wu, Weidi Xie
cs.AI

要旨

現代の視覚エージェントは、リアルタイムストリーミング環境で動作するために、汎用的で因果的、かつ物理的に構造化された表現を必要としている。しかし、現在の視覚基盤モデルは断片的なままであり、画像の意味的知覚、オフライン時系列モデリング、空間的ジオメトリといった分野に特化している。本論文では、多様な視覚入力から効果的に知覚、再構築、行動する統合型ストリーミング視覚バックボーン「OmniStream」を提案する。因果的時空間注意と3D回転位置埋め込み(3D-RoPE)を組み込むことで、本モデルは永続的KVキャッシュによるビデオストリームの効率的なフレーム単位のオンライン処理を実現する。OmniStreamは、静的・時間的表現学習、ストリーミング幾何再構築、視覚言語アラインメントを結合した協調的マルチタスクフレームワークを用いて、29のデータセットで事前学習を行う。詳細な評価により、バックボーンを厳密に固定した場合でも、OmniStreamが画像・ビデオプロービング、ストリーミング幾何再構築、複雑なビデオ・空間推論、さらにはロボット把持(学習時未経験)において、特化した専門モデルと一貫して競争力のある性能を達成することが示された。ベンチマーク特化型の優位性を追求するのではなく、本研究は意味的・空間的・時間的推論に汎化する単一の多用途視覚バックボーンを訓練する可能性を実証する。すなわち、対話的で具身化されたエージェントのための汎用視覚理解に向けた、より意味のある一歩を示すものである。
English
Modern visual agents require representations that are general, causal, and physically structured to operate in real-time streaming environments. However, current vision foundation models remain fragmented, specializing narrowly in image semantic perception, offline temporal modeling, or spatial geometry. This paper introduces OmniStream, a unified streaming visual backbone that effectively perceives, reconstructs, and acts from diverse visual inputs. By incorporating causal spatiotemporal attention and 3D rotary positional embeddings (3D-RoPE), our model supports efficient, frame-by-frame online processing of video streams via a persistent KV-cache. We pre-train OmniStream using a synergistic multi-task framework coupling static and temporal representation learning, streaming geometric reconstruction, and vision-language alignment on 29 datasets. Extensive evaluations show that, even with a strictly frozen backbone, OmniStream achieves consistently competitive performance with specialized experts across image and video probing, streaming geometric reconstruction, complex video and spatial reasoning, as well as robotic manipulation (unseen at training). Rather than pursuing benchmark-specific dominance, our work demonstrates the viability of training a single, versatile vision backbone that generalizes across semantic, spatial, and temporal reasoning, i.e., a more meaningful step toward general-purpose visual understanding for interactive and embodied agents.
PDF92March 15, 2026