EgoLifter : Segmentation 3D en monde ouvert pour la perception égocentrique
EgoLifter: Open-world 3D Segmentation for Egocentric Perception
March 26, 2024
Auteurs: Qiao Gu, Zhaoyang Lv, Duncan Frost, Simon Green, Julian Straub, Chris Sweeney
cs.AI
Résumé
Dans cet article, nous présentons EgoLifter, un système novateur capable de segmenter automatiquement des scènes capturées par des capteurs égocentriques en une décomposition complète d'objets 3D individuels. Le système est spécifiquement conçu pour les données égocentriques où les scènes contiennent des centaines d'objets capturés à partir de mouvements naturels (non balayés). EgoLifter adopte les gaussiennes 3D comme représentation sous-jacente des scènes et objets 3D, et utilise des masques de segmentation du modèle Segment Anything Model (SAM) comme supervision faible pour apprendre des définitions flexibles et incitables d'instances d'objets, indépendamment de toute taxonomie d'objets spécifique. Pour relever le défi des objets dynamiques dans les vidéos égocentriques, nous avons conçu un module de prédiction transitoire qui apprend à filtrer les objets dynamiques dans la reconstruction 3D. Le résultat est un pipeline entièrement automatique capable de reconstruire des instances d'objets 3D sous forme de collections de gaussiennes 3D qui composent collectivement l'ensemble de la scène. Nous avons créé un nouveau benchmark sur le jeu de données Aria Digital Twin qui démontre quantitativement ses performances de pointe en segmentation 3D en monde ouvert à partir d'entrées égocentriques naturelles. Nous avons exécuté EgoLifter sur divers jeux de données d'activités égocentriques, montrant ainsi le potentiel de la méthode pour la perception 3D égocentrique à grande échelle.
English
In this paper we present EgoLifter, a novel system that can automatically
segment scenes captured from egocentric sensors into a complete decomposition
of individual 3D objects. The system is specifically designed for egocentric
data where scenes contain hundreds of objects captured from natural
(non-scanning) motion. EgoLifter adopts 3D Gaussians as the underlying
representation of 3D scenes and objects and uses segmentation masks from the
Segment Anything Model (SAM) as weak supervision to learn flexible and
promptable definitions of object instances free of any specific object
taxonomy. To handle the challenge of dynamic objects in ego-centric videos, we
design a transient prediction module that learns to filter out dynamic objects
in the 3D reconstruction. The result is a fully automatic pipeline that is able
to reconstruct 3D object instances as collections of 3D Gaussians that
collectively compose the entire scene. We created a new benchmark on the Aria
Digital Twin dataset that quantitatively demonstrates its state-of-the-art
performance in open-world 3D segmentation from natural egocentric input. We run
EgoLifter on various egocentric activity datasets which shows the promise of
the method for 3D egocentric perception at scale.Summary
AI-Generated Summary