GARField: 라디언스 필드를 활용한 그룹화 기술
GARField: Group Anything with Radiance Fields
January 17, 2024
저자: Chung Min Kim, Mingxuan Wu, Justin Kerr, Ken Goldberg, Matthew Tancik, Angjoo Kanazawa
cs.AI
초록
그룹화는 본질적으로 모호한 작업입니다. 왜냐하면 장면을 여러 수준의 세분성으로 분해할 수 있기 때문입니다. 예를 들어 굴삭기의 바퀴를 별도의 개체로 간주해야 할지, 아니면 전체의 일부로 간주해야 할지 결정하기 어렵습니다. 우리는 이러한 문제를 해결하기 위해 Radiance Fields를 활용한 Group Anything(GARField) 접근법을 제안합니다. 이 방법은 포즈가 지정된 이미지 입력을 통해 3D 장면을 의미론적으로 의미 있는 그룹의 계층 구조로 분해합니다. 이를 위해 우리는 물리적 규모를 통해 그룹 모호성을 수용합니다: 규모에 따라 조건화된 3D 친화도 특징 필드를 최적화함으로써, 세계의 한 점이 다양한 크기의 다른 그룹에 속할 수 있도록 합니다. 우리는 이 필드를 Segment Anything(SAM)에서 제공된 2D 마스크 세트로부터 최적화하며, 이를 통해 coarse-to-fine 계층 구조를 존중하고, 서로 다른 시점에서의 상충하는 마스크를 일관되게 융합하기 위해 규모를 사용합니다. 이 필드로부터 자동 트리 구성 또는 사용자 상호작용을 통해 가능한 그룹화의 계층 구조를 도출할 수 있습니다. 우리는 GARField을 다양한 실제 장면에서 평가했으며, 이 방법이 객체 클러스터, 개별 객체, 그리고 다양한 하위 부분 등 여러 수준에서 효과적으로 그룹을 추출함을 확인했습니다. GARField은 다중 뷰 일관성 그룹화를 본질적으로 표현하며, 입력 SAM 마스크보다 더 높은 충실도의 그룹을 생성합니다. GARField의 계층적 그룹화는 3D 자산 추출이나 동적 장면 이해와 같은 흥미로운 하위 작업에 적용될 수 있습니다. 프로젝트 웹사이트는 https://www.garfield.studio/에서 확인할 수 있습니다.
English
Grouping is inherently ambiguous due to the multiple levels of granularity in
which one can decompose a scene -- should the wheels of an excavator be
considered separate or part of the whole? We present Group Anything with
Radiance Fields (GARField), an approach for decomposing 3D scenes into a
hierarchy of semantically meaningful groups from posed image inputs. To do this
we embrace group ambiguity through physical scale: by optimizing a
scale-conditioned 3D affinity feature field, a point in the world can belong to
different groups of different sizes. We optimize this field from a set of 2D
masks provided by Segment Anything (SAM) in a way that respects coarse-to-fine
hierarchy, using scale to consistently fuse conflicting masks from different
viewpoints. From this field we can derive a hierarchy of possible groupings via
automatic tree construction or user interaction. We evaluate GARField on a
variety of in-the-wild scenes and find it effectively extracts groups at many
levels: clusters of objects, objects, and various subparts. GARField inherently
represents multi-view consistent groupings and produces higher fidelity groups
than the input SAM masks. GARField's hierarchical grouping could have exciting
downstream applications such as 3D asset extraction or dynamic scene
understanding. See the project website at https://www.garfield.studio/