RADIO-ViPE: Online eng gekoppelte multimodale Fusion für Open-Vocabulary semantische SLAM in dynamischen Umgebungen

Zusammenfassung

Wir stellen RADIO-ViPE (Reduce All Domains Into One – Video Pose Engine) vor, ein online semantisches SLAM-System, das geometriebewusste, offen-vokabuläre Verankerung ermöglicht und beliebige natürliche Sprachabfragen mit lokalisierten 3D-Regionen und Objekten in dynamischen Umgebungen verknüpft. Im Gegensatz zu bestehenden Ansätzen, die kalibrierte, pose-korrigierte RGB-D-Eingaben erfordern, arbeitet RADIO-ViPE direkt mit rohen monokularen RGB-Videoströmen und benötigt weder vorab bekannte Kameraintrinsiken, Tiefensensoren noch eine Pose-Initialisierung. Das System koppelt eng multimodale Einbettungen – aus den Bereichen Sehen und Sprache –, die von agglomerativen Foundation-Modellen (z.B. RADIO) abgeleitet werden, mit geometrischen Szeneninformationen. Diese Kopplung erfolgt während der Initialisierung, Optimierung und in Faktorgraphen-Verbindungen, um die Konsistenz der Karte aus multiplen Modalitäten zu verbessern. Die Optimierung ist in adaptive robuste Kernel eingebettet, die entwickelt wurden, um sowohl aktiv bewegte Objekte als auch durch den Agenten verschobene Szenenelemente (z.B. während einer egozentrischen Sitzung umgestellte Möbel) zu verarbeiten. Experimente zeigen, dass RADIO-ViPE state-of-the-art Ergebnisse auf dem dynamischen TUM-RGBD-Benchmark erzielt und dabei eine wettbewerbsfähige Performance gegenüber offline open-vocabulary Methoden beibehält, die auf kalibrierten Daten und statischen Szenenannahmen basieren. RADIO-ViPE schließt eine kritische Lücke für den Einsatz in der realen Welt und ermöglicht eine robuste, offen-vokabuläre semantische Verankerung für autonome Robotik und uneingeschränkte Videoströme aus unkontrollierten Umgebungen. Projektseite: https://be2rlab.github.io/radio_vipe

English

We present RADIO-ViPE (Reduce All Domains Into One -- Video Pose Engine), an online semantic SLAM system that enables geometry-aware open-vocabulary grounding, associating arbitrary natural language queries with localized 3D regions and objects in dynamic environments. Unlike existing approaches that require calibrated, posed RGB-D input, RADIO-ViPE operates directly on raw monocular RGB video streams, requiring no prior camera intrinsics, depth sensors, or pose initialization. The system tightly couples multi-modal embeddings -- spanning vision and language -- derived from agglomerative foundation models (e.g., RADIO) with geometric scene information. This coupling takes place in initialization, optimization and factor graph connections to improve the consistency of the map from multiple modalities. The optimization is wrapped within adaptive robust kernels, designed to handle both actively moving objects and agent-displaced scene elements (e.g., furniture rearranged during ego-centric session). Experiments demonstrate that RADIO-ViPE achieves state-of-the-art results on the dynamic TUM-RGBD benchmark while maintaining competitive performance against offline open-vocabulary methods that rely on calibrated data and static scene assumptions. RADIO-ViPE bridges a critical gap in real-world deployment, enabling robust open-vocabulary semantic grounding for autonomous robotics and unconstrained in-the-wild video streams. Project page: https://be2rlab.github.io/radio_vipe

RADIO-ViPE: Online eng gekoppelte multimodale Fusion für Open-Vocabulary semantische SLAM in dynamischen Umgebungen

RADIO-ViPE: Online Tightly Coupled Multi-Modal Fusion for Open-Vocabulary Semantic SLAM in Dynamic Environments

Zusammenfassung

Support