ChatPaper.aiChatPaper

EgoLifter: エゴセントリック知覚のためのオープンワールド3Dセグメンテーション

EgoLifter: Open-world 3D Segmentation for Egocentric Perception

March 26, 2024
著者: Qiao Gu, Zhaoyang Lv, Duncan Frost, Simon Green, Julian Straub, Chris Sweeney
cs.AI

要旨

本論文では、エゴセントリックセンサーからキャプチャされたシーンを個々の3Dオブジェクトの完全な分解に自動的に分割する新規システム「EgoLifter」を紹介します。このシステムは、自然な(非スキャン)動きからキャプチャされた数百のオブジェクトを含むエゴセントリックデータに特化して設計されています。EgoLifterは、3Dシーンとオブジェクトの基礎表現として3Dガウシアンを採用し、Segment Anything Model(SAM)からのセグメンテーションマスクを弱い教師信号として使用して、特定のオブジェクト分類に依存しない柔軟でプロンプト可能なオブジェクトインスタンスの定義を学習します。エゴセントリックビデオにおける動的オブジェクトの課題に対処するため、3D再構成から動的オブジェクトをフィルタリングするための一時的予測モジュールを設計しました。その結果、シーン全体を構成する3Dガウシアンの集合として3Dオブジェクトインスタンスを再構築する完全自動パイプラインが実現されました。Aria Digital Twinデータセットに基づく新しいベンチマークを作成し、自然なエゴセントリック入力からのオープンワールド3Dセグメンテーションにおける最先端の性能を定量的に実証しました。様々なエゴセントリック活動データセットでEgoLifterを実行し、大規模な3Dエゴセントリック知覚における本手法の可能性を示しました。
English
In this paper we present EgoLifter, a novel system that can automatically segment scenes captured from egocentric sensors into a complete decomposition of individual 3D objects. The system is specifically designed for egocentric data where scenes contain hundreds of objects captured from natural (non-scanning) motion. EgoLifter adopts 3D Gaussians as the underlying representation of 3D scenes and objects and uses segmentation masks from the Segment Anything Model (SAM) as weak supervision to learn flexible and promptable definitions of object instances free of any specific object taxonomy. To handle the challenge of dynamic objects in ego-centric videos, we design a transient prediction module that learns to filter out dynamic objects in the 3D reconstruction. The result is a fully automatic pipeline that is able to reconstruct 3D object instances as collections of 3D Gaussians that collectively compose the entire scene. We created a new benchmark on the Aria Digital Twin dataset that quantitatively demonstrates its state-of-the-art performance in open-world 3D segmentation from natural egocentric input. We run EgoLifter on various egocentric activity datasets which shows the promise of the method for 3D egocentric perception at scale.

Summary

AI-Generated Summary

PDF121December 15, 2024