OmniStream : Maîtriser la perception, la reconstruction et l'action dans des flux continus

Résumé

Les agents visuels modernes nécessitent des représentations générales, causales et structurellement physiques pour fonctionner dans des environnements de flux en temps réel. Cependant, les modèles de fondation visuels actuels restent fragmentés, se spécialisant étroitement dans la perception sémantique d'images, la modélisation temporelle hors ligne ou la géométrie spatiale. Cet article présente OmniStream, un backbone visuel unifié pour le streaming qui perçoit, reconstruit et agit efficacement à partir de diverses entrées visuelles. En intégrant une attention spatiotemporelle causale et des encodages positionnels rotatifs 3D (3D-RoPE), notre modèle prend en charge un traitement en ligne efficace, image par image, des flux vidéo via un cache KV persistant. Nous pré-entraînons OmniStream à l'aide d'un cadre multitâche synergique couplant l'apprentissage de représentations statiques et temporelles, la reconstruction géométrique en flux continu et l'alignement vision-langue sur 29 jeux de données. Des évaluations approfondies montrent que, même avec un backbone strictement gelé, OmniStream atteint des performances constamment compétitives par rapport à des experts spécialisés dans des tâches variées : sondage d'images et de vidéos, reconstruction géométrique en streaming, raisonnement complexe sur la vidéo et l'espace, ainsi que la manipulation robotique (non vue pendant l'entraînement). Plutôt que de viser la dominance sur des benchmarks spécifiques, notre travail démontre la viabilité d'entraîner un unique backbone visuel polyvalent qui généralise à travers le raisonnement sémantique, spatial et temporel, c'est-à-dire une étape plus significative vers une compréhension visuelle générale pour les agents interactifs et incarnés.

English

Modern visual agents require representations that are general, causal, and physically structured to operate in real-time streaming environments. However, current vision foundation models remain fragmented, specializing narrowly in image semantic perception, offline temporal modeling, or spatial geometry. This paper introduces OmniStream, a unified streaming visual backbone that effectively perceives, reconstructs, and acts from diverse visual inputs. By incorporating causal spatiotemporal attention and 3D rotary positional embeddings (3D-RoPE), our model supports efficient, frame-by-frame online processing of video streams via a persistent KV-cache. We pre-train OmniStream using a synergistic multi-task framework coupling static and temporal representation learning, streaming geometric reconstruction, and vision-language alignment on 29 datasets. Extensive evaluations show that, even with a strictly frozen backbone, OmniStream achieves consistently competitive performance with specialized experts across image and video probing, streaming geometric reconstruction, complex video and spatial reasoning, as well as robotic manipulation (unseen at training). Rather than pursuing benchmark-specific dominance, our work demonstrates the viability of training a single, versatile vision backbone that generalizes across semantic, spatial, and temporal reasoning, i.e., a more meaningful step toward general-purpose visual understanding for interactive and embodied agents.

OmniStream : Maîtriser la perception, la reconstruction et l'action dans des flux continus

OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams

Résumé

Support