ChatPaper.aiChatPaper

EgoLifter: 자기 중심적 인식을 위한 오픈 월드 3D 세분화

EgoLifter: Open-world 3D Segmentation for Egocentric Perception

March 26, 2024
저자: Qiao Gu, Zhaoyang Lv, Duncan Frost, Simon Green, Julian Straub, Chris Sweeney
cs.AI

초록

본 논문에서는 에고센티릭 센서로 캡처된 장면을 개별 3D 객체의 완전한 분해로 자동 분할할 수 있는 새로운 시스템인 EgoLifter를 소개한다. 이 시스템은 자연스러운(스캔하지 않은) 움직임으로 캡처된 수백 개의 객체가 포함된 장면을 다루는 에고센티릭 데이터를 위해 특별히 설계되었다. EgoLifter는 3D 장면과 객체의 기본 표현으로 3D 가우시안을 채택하고, Segment Anything Model(SAM)의 분할 마스크를 약한 감독으로 사용하여 특정 객체 분류 체계에 구애받지 않는 유연하고 프롬프트 가능한 객체 인스턴스 정의를 학습한다. 에고센티릭 비디오에서 동적 객체를 처리하기 위해, 우리는 3D 재구성에서 동적 객체를 필터링하는 방법을 학습하는 일시적 예측 모듈을 설계했다. 그 결과, 전체 장면을 구성하는 3D 가우시안 집합으로 3D 객체 인스턴스를 재구성할 수 있는 완전 자동화된 파이프라인이 구현되었다. 우리는 Aria Digital Twin 데이터셋에 새로운 벤치마크를 구축하여 자연스러운 에고센티릭 입력에서의 오픈 월드 3D 분할에서의 최첨단 성능을 정량적으로 입증했다. 다양한 에고센티릭 활동 데이터셋에 EgoLifter를 실행한 결과, 이 방법이 대규모 3D 에고센티릭 인식에 유망함을 보여주었다.
English
In this paper we present EgoLifter, a novel system that can automatically segment scenes captured from egocentric sensors into a complete decomposition of individual 3D objects. The system is specifically designed for egocentric data where scenes contain hundreds of objects captured from natural (non-scanning) motion. EgoLifter adopts 3D Gaussians as the underlying representation of 3D scenes and objects and uses segmentation masks from the Segment Anything Model (SAM) as weak supervision to learn flexible and promptable definitions of object instances free of any specific object taxonomy. To handle the challenge of dynamic objects in ego-centric videos, we design a transient prediction module that learns to filter out dynamic objects in the 3D reconstruction. The result is a fully automatic pipeline that is able to reconstruct 3D object instances as collections of 3D Gaussians that collectively compose the entire scene. We created a new benchmark on the Aria Digital Twin dataset that quantitatively demonstrates its state-of-the-art performance in open-world 3D segmentation from natural egocentric input. We run EgoLifter on various egocentric activity datasets which shows the promise of the method for 3D egocentric perception at scale.

Summary

AI-Generated Summary

PDF121December 15, 2024