EgoLifter: Segmentazione 3D in ambienti aperti per la percezione egocentrica

Abstract

In questo articolo presentiamo EgoLifter, un sistema innovativo in grado di segmentare automaticamente scene catturate da sensori egocentrici in una decomposizione completa di singoli oggetti 3D. Il sistema è specificamente progettato per dati egocentrici in cui le scene contengono centinaia di oggetti catturati da movimenti naturali (non di scansione). EgoLifter adotta le Gaussiane 3D come rappresentazione sottostante delle scene e degli oggetti 3D e utilizza maschere di segmentazione del Segment Anything Model (SAM) come supervisione debole per apprendere definizioni flessibili e promptabili di istanze di oggetti, libere da qualsiasi tassonomia specifica. Per affrontare la sfida degli oggetti dinamici nei video egocentrici, abbiamo progettato un modulo di previsione transitoria che impara a filtrare gli oggetti dinamici nella ricostruzione 3D. Il risultato è una pipeline completamente automatica in grado di ricostruire istanze di oggetti 3D come collezioni di Gaussiane 3D che compongono collettivamente l'intera scena. Abbiamo creato un nuovo benchmark sul dataset Aria Digital Twin che dimostra quantitativamente le sue prestazioni all'avanguardia nella segmentazione 3D in mondi aperti da input egocentrico naturale. Abbiamo eseguito EgoLifter su vari dataset di attività egocentriche, mostrando il potenziale del metodo per la percezione egocentrica 3D su larga scala.

English

In this paper we present EgoLifter, a novel system that can automatically segment scenes captured from egocentric sensors into a complete decomposition of individual 3D objects. The system is specifically designed for egocentric data where scenes contain hundreds of objects captured from natural (non-scanning) motion. EgoLifter adopts 3D Gaussians as the underlying representation of 3D scenes and objects and uses segmentation masks from the Segment Anything Model (SAM) as weak supervision to learn flexible and promptable definitions of object instances free of any specific object taxonomy. To handle the challenge of dynamic objects in ego-centric videos, we design a transient prediction module that learns to filter out dynamic objects in the 3D reconstruction. The result is a fully automatic pipeline that is able to reconstruct 3D object instances as collections of 3D Gaussians that collectively compose the entire scene. We created a new benchmark on the Aria Digital Twin dataset that quantitatively demonstrates its state-of-the-art performance in open-world 3D segmentation from natural egocentric input. We run EgoLifter on various egocentric activity datasets which shows the promise of the method for 3D egocentric perception at scale.

EgoLifter: Segmentazione 3D in ambienti aperti per la percezione egocentrica

EgoLifter: Open-world 3D Segmentation for Egocentric Perception

Abstract

Support