GARField : Regroupement Arbitraire avec Champs de Radiance
GARField: Group Anything with Radiance Fields
January 17, 2024
Auteurs: Chung Min Kim, Mingxuan Wu, Justin Kerr, Ken Goldberg, Matthew Tancik, Angjoo Kanazawa
cs.AI
Résumé
Le regroupement est intrinsèquement ambigu en raison des multiples niveaux de granularité avec lesquels on peut décomposer une scène — les roues d'une pelleteuse doivent-elles être considérées comme séparées ou comme faisant partie de l'ensemble ? Nous présentons Group Anything with Radiance Fields (GARField), une approche pour décomposer des scènes 3D en une hiérarchie de groupes sémantiquement significatifs à partir d'images posées en entrée. Pour ce faire, nous embrassons l'ambiguïté du regroupement à travers l'échelle physique : en optimisant un champ de caractéristiques d'affinité 3D conditionné par l'échelle, un point dans le monde peut appartenir à différents groupes de tailles variées. Nous optimisons ce champ à partir d'un ensemble de masques 2D fournis par Segment Anything (SAM) d'une manière qui respecte une hiérarchie allant du grossier au fin, en utilisant l'échelle pour fusionner de manière cohérente les masques conflictuels provenant de différents points de vue. À partir de ce champ, nous pouvons dériver une hiérarchie de regroupements possibles via une construction automatique d'arbre ou une interaction utilisateur. Nous évaluons GARField sur une variété de scènes en conditions réelles et constatons qu'il extrait efficacement des groupes à de nombreux niveaux : clusters d'objets, objets et diverses sous-parties. GARField représente intrinsèquement des regroupements cohérents en multi-vues et produit des groupes de plus haute fidélité que les masques SAM en entrée. Le regroupement hiérarchique de GARField pourrait avoir des applications en aval passionnantes, telles que l'extraction d'actifs 3D ou la compréhension dynamique de scènes. Consultez le site du projet à l'adresse https://www.garfield.studio/
English
Grouping is inherently ambiguous due to the multiple levels of granularity in
which one can decompose a scene -- should the wheels of an excavator be
considered separate or part of the whole? We present Group Anything with
Radiance Fields (GARField), an approach for decomposing 3D scenes into a
hierarchy of semantically meaningful groups from posed image inputs. To do this
we embrace group ambiguity through physical scale: by optimizing a
scale-conditioned 3D affinity feature field, a point in the world can belong to
different groups of different sizes. We optimize this field from a set of 2D
masks provided by Segment Anything (SAM) in a way that respects coarse-to-fine
hierarchy, using scale to consistently fuse conflicting masks from different
viewpoints. From this field we can derive a hierarchy of possible groupings via
automatic tree construction or user interaction. We evaluate GARField on a
variety of in-the-wild scenes and find it effectively extracts groups at many
levels: clusters of objects, objects, and various subparts. GARField inherently
represents multi-view consistent groupings and produces higher fidelity groups
than the input SAM masks. GARField's hierarchical grouping could have exciting
downstream applications such as 3D asset extraction or dynamic scene
understanding. See the project website at https://www.garfield.studio/