ChatPaper.aiChatPaper

EgoLifter: Open-World 3D-Segmentierung für egozentrische Wahrnehmung

EgoLifter: Open-world 3D Segmentation for Egocentric Perception

March 26, 2024
Autoren: Qiao Gu, Zhaoyang Lv, Duncan Frost, Simon Green, Julian Straub, Chris Sweeney
cs.AI

Zusammenfassung

In diesem Paper präsentieren wir EgoLifter, ein neuartiges System, das Szenen, die von egozentrischen Sensoren erfasst wurden, automatisch in eine vollständige Zerlegung einzelner 3D-Objekte segmentieren kann. Das System ist speziell für egozentrische Daten konzipiert, in denen Szenen Hunderte von Objekten enthalten, die durch natürliche (nicht abtastende) Bewegungen erfasst wurden. EgoLifter verwendet 3D-Gaußsche als zugrunde liegende Darstellung von 3D-Szenen und Objekten und nutzt Segmentierungsmasken des Segment Anything Model (SAM) als schwache Aufsicht, um flexible und anpassbare Definitionen von Objektinstanzen zu erlernen, die frei von einer spezifischen Objekttaxonomie sind. Um mit der Herausforderung dynamischer Objekte in egozentrischen Videos umzugehen, haben wir ein Modul zur transienten Vorhersage entwickelt, das lernt, dynamische Objekte in der 3D-Rekonstruktion herauszufiltern. Das Ergebnis ist eine vollautomatische Pipeline, die in der Lage ist, 3D-Objektinstanzen als Sammlungen von 3D-Gaußschen zu rekonstruieren, die gemeinsam die gesamte Szene zusammensetzen. Wir haben einen neuen Benchmark auf dem Aria Digital Twin Datensatz erstellt, der quantitativ die Spitzenleistung bei der 3D-Segmentierung in offenen Welten aus natürlichen egozentrischen Eingaben demonstriert. Wir haben EgoLifter auf verschiedenen Datensätzen zu egozentrischen Aktivitäten ausgeführt, was das Potenzial der Methode für die 3D-egozentrische Wahrnehmung im großen Maßstab zeigt.
English
In this paper we present EgoLifter, a novel system that can automatically segment scenes captured from egocentric sensors into a complete decomposition of individual 3D objects. The system is specifically designed for egocentric data where scenes contain hundreds of objects captured from natural (non-scanning) motion. EgoLifter adopts 3D Gaussians as the underlying representation of 3D scenes and objects and uses segmentation masks from the Segment Anything Model (SAM) as weak supervision to learn flexible and promptable definitions of object instances free of any specific object taxonomy. To handle the challenge of dynamic objects in ego-centric videos, we design a transient prediction module that learns to filter out dynamic objects in the 3D reconstruction. The result is a fully automatic pipeline that is able to reconstruct 3D object instances as collections of 3D Gaussians that collectively compose the entire scene. We created a new benchmark on the Aria Digital Twin dataset that quantitatively demonstrates its state-of-the-art performance in open-world 3D segmentation from natural egocentric input. We run EgoLifter on various egocentric activity datasets which shows the promise of the method for 3D egocentric perception at scale.

Summary

AI-Generated Summary

PDF121December 15, 2024