EgoLifter: Segmentación 3D en mundo abierto para percepción egocéntrica
EgoLifter: Open-world 3D Segmentation for Egocentric Perception
March 26, 2024
Autores: Qiao Gu, Zhaoyang Lv, Duncan Frost, Simon Green, Julian Straub, Chris Sweeney
cs.AI
Resumen
En este artículo presentamos EgoLifter, un sistema novedoso que puede segmentar automáticamente escenas capturadas por sensores egocéntricos en una descomposición completa de objetos 3D individuales. El sistema está específicamente diseñado para datos egocéntricos donde las escenas contienen cientos de objetos capturados a partir de movimientos naturales (no de escaneo). EgoLifter adopta gaussianas 3D como representación subyacente de escenas y objetos 3D, y utiliza máscaras de segmentación del modelo Segment Anything Model (SAM) como supervisión débil para aprender definiciones flexibles y prompteras de instancias de objetos, libres de cualquier taxonomía de objetos específica. Para abordar el desafío de los objetos dinámicos en videos egocéntricos, diseñamos un módulo de predicción transitoria que aprende a filtrar objetos dinámicos en la reconstrucción 3D. El resultado es una pipeline completamente automática capaz de reconstruir instancias de objetos 3D como colecciones de gaussianas 3D que componen colectivamente toda la escena. Creamos un nuevo benchmark en el conjunto de datos Aria Digital Twin que demuestra cuantitativamente su rendimiento de vanguardia en la segmentación 3D de mundo abierto a partir de entradas egocéntricas naturales. Ejecutamos EgoLifter en varios conjuntos de datos de actividades egocéntricas, lo que muestra el potencial del método para la percepción egocéntrica 3D a gran escala.
English
In this paper we present EgoLifter, a novel system that can automatically
segment scenes captured from egocentric sensors into a complete decomposition
of individual 3D objects. The system is specifically designed for egocentric
data where scenes contain hundreds of objects captured from natural
(non-scanning) motion. EgoLifter adopts 3D Gaussians as the underlying
representation of 3D scenes and objects and uses segmentation masks from the
Segment Anything Model (SAM) as weak supervision to learn flexible and
promptable definitions of object instances free of any specific object
taxonomy. To handle the challenge of dynamic objects in ego-centric videos, we
design a transient prediction module that learns to filter out dynamic objects
in the 3D reconstruction. The result is a fully automatic pipeline that is able
to reconstruct 3D object instances as collections of 3D Gaussians that
collectively compose the entire scene. We created a new benchmark on the Aria
Digital Twin dataset that quantitatively demonstrates its state-of-the-art
performance in open-world 3D segmentation from natural egocentric input. We run
EgoLifter on various egocentric activity datasets which shows the promise of
the method for 3D egocentric perception at scale.Summary
AI-Generated Summary