ObjectGS: Objektbewusste Szenenrekonstruktion und Szenenverständnis mittels Gaußscher Splatting
ObjectGS: Object-aware Scene Reconstruction and Scene Understanding via Gaussian Splatting
July 21, 2025
papers.authors: Ruijie Zhu, Mulin Yu, Linning Xu, Lihan Jiang, Yixuan Li, Tianzhu Zhang, Jiangmiao Pang, Bo Dai
cs.AI
papers.abstract
3D Gaussian Splatting ist bekannt für seine hochauflösenden Rekonstruktionen und die Echtzeit-Synthese neuer Ansichten, doch das Fehlen von semantischem Verständnis begrenzt die Objektebene der Wahrnehmung. In dieser Arbeit präsentieren wir ObjectGS, ein objektbewusstes Framework, das 3D-Szenenrekonstruktion mit semantischem Verständnis vereint. Anstatt die Szene als einheitliches Ganzes zu behandeln, modelliert ObjectGS einzelne Objekte als lokale Anker, die neuronale Gaussians erzeugen und Objekt-IDs teilen, wodurch eine präzise Rekonstruktion auf Objektebene ermöglicht wird. Während des Trainings erweitern oder reduzieren wir diese Anker dynamisch und optimieren ihre Merkmale, während eine One-Hot-ID-Kodierung mit einem Klassifikationsverlust klare semantische Einschränkungen durchsetzt. Wir zeigen durch umfangreiche Experimente, dass ObjectGS nicht nur state-of-the-art Methoden bei Open-Vocabulary- und Panoptic-Segmentierungsaufgaben übertrifft, sondern sich auch nahtlos in Anwendungen wie Meshextraktion und Szenenbearbeitung integrieren lässt. Projektseite: https://ruijiezhu94.github.io/ObjectGS_page
English
3D Gaussian Splatting is renowned for its high-fidelity reconstructions and
real-time novel view synthesis, yet its lack of semantic understanding limits
object-level perception. In this work, we propose ObjectGS, an object-aware
framework that unifies 3D scene reconstruction with semantic understanding.
Instead of treating the scene as a unified whole, ObjectGS models individual
objects as local anchors that generate neural Gaussians and share object IDs,
enabling precise object-level reconstruction. During training, we dynamically
grow or prune these anchors and optimize their features, while a one-hot ID
encoding with a classification loss enforces clear semantic constraints. We
show through extensive experiments that ObjectGS not only outperforms
state-of-the-art methods on open-vocabulary and panoptic segmentation tasks,
but also integrates seamlessly with applications like mesh extraction and scene
editing. Project page: https://ruijiezhu94.github.io/ObjectGS_page