GARField: Raggruppamento di Oggetti con Campi di Radianza

Abstract

Il raggruppamento è intrinsecamente ambiguo a causa dei molteplici livelli di granularità con cui è possibile scomporre una scena: le ruote di un escavatore dovrebbero essere considerate separate o parte dell'insieme? Presentiamo Group Anything with Radiance Fields (GARField), un approccio per scomporre scene 3D in una gerarchia di gruppi semanticamente significativi a partire da immagini con pose note. Per fare ciò, abbracciamo l'ambiguità del raggruppamento attraverso la scala fisica: ottimizzando un campo di caratteristiche di affinità 3D condizionato alla scala, un punto nel mondo può appartenere a diversi gruppi di dimensioni differenti. Ottimizziamo questo campo a partire da un insieme di maschere 2D fornite da Segment Anything (SAM) in modo da rispettare una gerarchia dal generale al dettagliato, utilizzando la scala per fondere in modo coerente maschere in conflitto provenienti da punti di vista diversi. Da questo campo possiamo derivare una gerarchia di possibili raggruppamenti attraverso la costruzione automatica di alberi o l'interazione dell'utente. Valutiamo GARField su una varietà di scene reali e scopriamo che estrae efficacemente gruppi a molti livelli: cluster di oggetti, oggetti singoli e varie parti componenti. GARField rappresenta intrinsecamente raggruppamenti coerenti tra più viste e produce gruppi con una fedeltà superiore rispetto alle maschere SAM di input. Il raggruppamento gerarchico di GARField potrebbe avere interessanti applicazioni a valle, come l'estrazione di asset 3D o la comprensione dinamica delle scene. Visita il sito del progetto all'indirizzo https://www.garfield.studio/

English

Grouping is inherently ambiguous due to the multiple levels of granularity in which one can decompose a scene -- should the wheels of an excavator be considered separate or part of the whole? We present Group Anything with Radiance Fields (GARField), an approach for decomposing 3D scenes into a hierarchy of semantically meaningful groups from posed image inputs. To do this we embrace group ambiguity through physical scale: by optimizing a scale-conditioned 3D affinity feature field, a point in the world can belong to different groups of different sizes. We optimize this field from a set of 2D masks provided by Segment Anything (SAM) in a way that respects coarse-to-fine hierarchy, using scale to consistently fuse conflicting masks from different viewpoints. From this field we can derive a hierarchy of possible groupings via automatic tree construction or user interaction. We evaluate GARField on a variety of in-the-wild scenes and find it effectively extracts groups at many levels: clusters of objects, objects, and various subparts. GARField inherently represents multi-view consistent groupings and produces higher fidelity groups than the input SAM masks. GARField's hierarchical grouping could have exciting downstream applications such as 3D asset extraction or dynamic scene understanding. See the project website at https://www.garfield.studio/

GARField: Raggruppamento di Oggetti con Campi di Radianza

GARField: Group Anything with Radiance Fields

Abstract

Support