EgoLifter: Сегментация трехмерного пространства в открытом мире для эгоцентрического восприятия
EgoLifter: Open-world 3D Segmentation for Egocentric Perception
March 26, 2024
Авторы: Qiao Gu, Zhaoyang Lv, Duncan Frost, Simon Green, Julian Straub, Chris Sweeney
cs.AI
Аннотация
В данной статье мы представляем EgoLifter, новую систему, способную автоматически сегментировать сцены, записанные с эгоцентрических датчиков, на полное декомпозицию отдельных 3D объектов. Система специально разработана для эгоцентрических данных, где сцены содержат сотни объектов, записанных при естественном (не сканирующем) движении. EgoLifter использует 3D гауссианы в качестве базового представления 3D сцен и объектов, а также использует маски сегментации из модели Segment Anything Model (SAM) в качестве слабого наблюдения для изучения гибких и настраиваемых определений экземпляров объектов, свободных от какой-либо конкретной таксономии объектов. Для решения проблемы динамических объектов в эгоцентрических видео мы разработали модуль прогнозирования транзиторов, который учится фильтровать динамические объекты в 3D реконструкции. Результатом стало полностью автоматическое конвейерное производство, способное восстанавливать экземпляры 3D объектов в виде коллекций 3D гауссиан, которые в совокупности составляют всю сцену. Мы создали новый бенчмарк на наборе данных Aria Digital Twin, который количественно демонстрирует его передовые возможности в сегментации 3D в открытом мире из естественного эгоцентрического ввода. Мы запустили EgoLifter на различных наборах данных по эгоцентрической деятельности, что показывает перспективы метода для трехмерного эгоцентрического восприятия в масштабе.
English
In this paper we present EgoLifter, a novel system that can automatically
segment scenes captured from egocentric sensors into a complete decomposition
of individual 3D objects. The system is specifically designed for egocentric
data where scenes contain hundreds of objects captured from natural
(non-scanning) motion. EgoLifter adopts 3D Gaussians as the underlying
representation of 3D scenes and objects and uses segmentation masks from the
Segment Anything Model (SAM) as weak supervision to learn flexible and
promptable definitions of object instances free of any specific object
taxonomy. To handle the challenge of dynamic objects in ego-centric videos, we
design a transient prediction module that learns to filter out dynamic objects
in the 3D reconstruction. The result is a fully automatic pipeline that is able
to reconstruct 3D object instances as collections of 3D Gaussians that
collectively compose the entire scene. We created a new benchmark on the Aria
Digital Twin dataset that quantitatively demonstrates its state-of-the-art
performance in open-world 3D segmentation from natural egocentric input. We run
EgoLifter on various egocentric activity datasets which shows the promise of
the method for 3D egocentric perception at scale.Summary
AI-Generated Summary