ObjectGS: Реконструкция сцены с учетом объектов и понимание сцены с использованием гауссовых сплатов
ObjectGS: Object-aware Scene Reconstruction and Scene Understanding via Gaussian Splatting
July 21, 2025
Авторы: Ruijie Zhu, Mulin Yu, Linning Xu, Lihan Jiang, Yixuan Li, Tianzhu Zhang, Jiangmiao Pang, Bo Dai
cs.AI
Аннотация
3D Gaussian Splatting известен своими высокоточными реконструкциями и синтезом новых видов в реальном времени, однако отсутствие семантического понимания ограничивает восприятие на уровне объектов. В данной работе мы предлагаем ObjectGS — объектно-ориентированную структуру, которая объединяет 3D-реконструкцию сцены с семантическим пониманием. Вместо того чтобы рассматривать сцену как единое целое, ObjectGS моделирует отдельные объекты как локальные якоря, которые генерируют нейронные гауссовы распределения и используют идентификаторы объектов, что позволяет достичь точной реконструкции на уровне объектов. В процессе обучения мы динамически добавляем или удаляем эти якоря и оптимизируем их характеристики, а однократное кодирование идентификаторов с функцией потерь классификации обеспечивает четкие семантические ограничения. Мы демонстрируем в ходе обширных экспериментов, что ObjectGS не только превосходит современные методы в задачах открытой лексики и панорамной сегментации, но и легко интегрируется с такими приложениями, как извлечение сеток и редактирование сцен. Страница проекта: https://ruijiezhu94.github.io/ObjectGS_page
English
3D Gaussian Splatting is renowned for its high-fidelity reconstructions and
real-time novel view synthesis, yet its lack of semantic understanding limits
object-level perception. In this work, we propose ObjectGS, an object-aware
framework that unifies 3D scene reconstruction with semantic understanding.
Instead of treating the scene as a unified whole, ObjectGS models individual
objects as local anchors that generate neural Gaussians and share object IDs,
enabling precise object-level reconstruction. During training, we dynamically
grow or prune these anchors and optimize their features, while a one-hot ID
encoding with a classification loss enforces clear semantic constraints. We
show through extensive experiments that ObjectGS not only outperforms
state-of-the-art methods on open-vocabulary and panoptic segmentation tasks,
but also integrates seamlessly with applications like mesh extraction and scene
editing. Project page: https://ruijiezhu94.github.io/ObjectGS_page