ChatPaper.aiChatPaper

EgoLifter: Open-world 3D-segmentatie voor egocentrische waarneming

EgoLifter: Open-world 3D Segmentation for Egocentric Perception

March 26, 2024
Auteurs: Qiao Gu, Zhaoyang Lv, Duncan Frost, Simon Green, Julian Straub, Chris Sweeney
cs.AI

Samenvatting

In dit artikel presenteren we EgoLifter, een nieuw systeem dat scènes die zijn vastgelegd met egocentrische sensoren automatisch kan segmenteren in een volledige decompositie van individuele 3D-objecten. Het systeem is specifiek ontworpen voor egocentrische data waarbij scènes honderden objecten bevatten die zijn vastgelegd met natuurlijke (niet-scannende) beweging. EgoLifter gebruikt 3D-Gaussiaanse verdelingen als onderliggende representatie van 3D-scènes en objecten en maakt gebruik van segmentatiemaskers van het Segment Anything Model (SAM) als zwakke supervisie om flexibele en promptbare definities van objectinstanties te leren, zonder gebonden te zijn aan een specifieke objecttaxonomie. Om de uitdaging van dynamische objecten in egocentrische video's aan te pakken, hebben we een transient prediction module ontworpen die leert om dynamische objecten uit de 3D-reconstructie te filteren. Het resultaat is een volledig automatische pipeline die in staat is om 3D-objectinstanties te reconstrueren als verzamelingen van 3D-Gaussiaanse verdelingen die gezamenlijk de hele scène vormen. We hebben een nieuwe benchmark gemaakt op de Aria Digital Twin-dataset die kwantitatief aantoont dat het systeem state-of-the-art prestaties levert in open-wereld 3D-segmentatie op basis van natuurlijke egocentrische input. We hebben EgoLifter uitgevoerd op verschillende egocentrische activiteitendatasets, wat de belofte van de methode voor 3D-egocentrische perceptie op grote schaal aantoont.
English
In this paper we present EgoLifter, a novel system that can automatically segment scenes captured from egocentric sensors into a complete decomposition of individual 3D objects. The system is specifically designed for egocentric data where scenes contain hundreds of objects captured from natural (non-scanning) motion. EgoLifter adopts 3D Gaussians as the underlying representation of 3D scenes and objects and uses segmentation masks from the Segment Anything Model (SAM) as weak supervision to learn flexible and promptable definitions of object instances free of any specific object taxonomy. To handle the challenge of dynamic objects in ego-centric videos, we design a transient prediction module that learns to filter out dynamic objects in the 3D reconstruction. The result is a fully automatic pipeline that is able to reconstruct 3D object instances as collections of 3D Gaussians that collectively compose the entire scene. We created a new benchmark on the Aria Digital Twin dataset that quantitatively demonstrates its state-of-the-art performance in open-world 3D segmentation from natural egocentric input. We run EgoLifter on various egocentric activity datasets which shows the promise of the method for 3D egocentric perception at scale.
PDF121December 15, 2024