EgoLifter: Segmentação 3D em Mundo Aberto para Percepção Egocêntrica
EgoLifter: Open-world 3D Segmentation for Egocentric Perception
March 26, 2024
Autores: Qiao Gu, Zhaoyang Lv, Duncan Frost, Simon Green, Julian Straub, Chris Sweeney
cs.AI
Resumo
Neste artigo, apresentamos o EgoLifter, um sistema inovador capaz de segmentar automaticamente cenas capturadas por sensores egocêntricos em uma decomposição completa de objetos 3D individuais. O sistema foi projetado especificamente para dados egocêntricos, onde as cenas contêm centenas de objetos capturados a partir de movimentos naturais (não de varredura). O EgoLifter adota Gaussianas 3D como representação subjacente de cenas e objetos 3D e utiliza máscaras de segmentação do Segment Anything Model (SAM) como supervisão fraca para aprender definições flexíveis e acionáveis de instâncias de objetos, livres de qualquer taxonomia específica de objetos. Para lidar com o desafio de objetos dinâmicos em vídeos egocêntricos, projetamos um módulo de previsão transitória que aprende a filtrar objetos dinâmicos na reconstrução 3D. O resultado é um pipeline totalmente automático capaz de reconstruir instâncias de objetos 3D como coleções de Gaussianas 3D que compõem coletivamente toda a cena. Criamos um novo benchmark no conjunto de dados Aria Digital Twin que demonstra quantitativamente seu desempenho de ponta em segmentação 3D de mundo aberto a partir de entrada egocêntrica natural. Executamos o EgoLifter em diversos conjuntos de dados de atividades egocêntricas, mostrando o potencial do método para percepção egocêntrica 3D em escala.
English
In this paper we present EgoLifter, a novel system that can automatically
segment scenes captured from egocentric sensors into a complete decomposition
of individual 3D objects. The system is specifically designed for egocentric
data where scenes contain hundreds of objects captured from natural
(non-scanning) motion. EgoLifter adopts 3D Gaussians as the underlying
representation of 3D scenes and objects and uses segmentation masks from the
Segment Anything Model (SAM) as weak supervision to learn flexible and
promptable definitions of object instances free of any specific object
taxonomy. To handle the challenge of dynamic objects in ego-centric videos, we
design a transient prediction module that learns to filter out dynamic objects
in the 3D reconstruction. The result is a fully automatic pipeline that is able
to reconstruct 3D object instances as collections of 3D Gaussians that
collectively compose the entire scene. We created a new benchmark on the Aria
Digital Twin dataset that quantitatively demonstrates its state-of-the-art
performance in open-world 3D segmentation from natural egocentric input. We run
EgoLifter on various egocentric activity datasets which shows the promise of
the method for 3D egocentric perception at scale.