ChatPaper.aiChatPaper

GARField: Gruppierung beliebiger Objekte mit Radiance Fields

GARField: Group Anything with Radiance Fields

January 17, 2024
Autoren: Chung Min Kim, Mingxuan Wu, Justin Kerr, Ken Goldberg, Matthew Tancik, Angjoo Kanazawa
cs.AI

Zusammenfassung

Gruppierung ist von Natur aus mehrdeutig, da eine Szene auf mehreren Granularitätsebenen zerlegt werden kann – sollten die Räder eines Baggers als separate Einheiten oder als Teil des Ganzen betrachtet werden? Wir präsentieren Group Anything with Radiance Fields (GARField), einen Ansatz zur Zerlegung von 3D-Szenen in eine Hierarchie semantisch bedeutsamer Gruppen aus gerichteten Bildinputs. Hierbei nutzen wir die Mehrdeutigkeit der Gruppierung durch physische Skalierung: Durch die Optimierung eines skalierungsbedingten 3D-Affinitätsmerkmal-Feldes kann ein Punkt in der Welt zu verschiedenen Gruppen unterschiedlicher Größe gehören. Wir optimieren dieses Feld anhand einer Reihe von 2D-Masken, die von Segment Anything (SAM) bereitgestellt werden, wobei wir eine grob- bis fein-granulare Hierarchie berücksichtigen und die Skalierung nutzen, um widersprüchliche Masken aus verschiedenen Blickwinkeln konsistent zu fusionieren. Aus diesem Feld können wir eine Hierarchie möglicher Gruppierungen durch automatische Baumkonstruktion oder Benutzerinteraktion ableiten. Wir evaluieren GARField anhand einer Vielzahl von Szenen in natürlicher Umgebung und stellen fest, dass es effektiv Gruppen auf vielen Ebenen extrahiert: Objektcluster, Objekte und verschiedene Unterteile. GARField repräsentiert inhärent konsistente Gruppierungen aus mehreren Blickwinkeln und erzeugt Gruppen mit höherer Detailtreue als die Eingabe-SAM-Masken. Die hierarchische Gruppierung von GARField könnte spannende nachgelagerte Anwendungen wie die Extraktion von 3D-Assets oder das dynamische Verständnis von Szenen ermöglichen. Weitere Informationen finden Sie auf der Projektwebsite unter https://www.garfield.studio/.
English
Grouping is inherently ambiguous due to the multiple levels of granularity in which one can decompose a scene -- should the wheels of an excavator be considered separate or part of the whole? We present Group Anything with Radiance Fields (GARField), an approach for decomposing 3D scenes into a hierarchy of semantically meaningful groups from posed image inputs. To do this we embrace group ambiguity through physical scale: by optimizing a scale-conditioned 3D affinity feature field, a point in the world can belong to different groups of different sizes. We optimize this field from a set of 2D masks provided by Segment Anything (SAM) in a way that respects coarse-to-fine hierarchy, using scale to consistently fuse conflicting masks from different viewpoints. From this field we can derive a hierarchy of possible groupings via automatic tree construction or user interaction. We evaluate GARField on a variety of in-the-wild scenes and find it effectively extracts groups at many levels: clusters of objects, objects, and various subparts. GARField inherently represents multi-view consistent groupings and produces higher fidelity groups than the input SAM masks. GARField's hierarchical grouping could have exciting downstream applications such as 3D asset extraction or dynamic scene understanding. See the project website at https://www.garfield.studio/
PDF222December 15, 2024