GARField: Agrupación de Cualquier Elemento con Campos de Radiancia
GARField: Group Anything with Radiance Fields
January 17, 2024
Autores: Chung Min Kim, Mingxuan Wu, Justin Kerr, Ken Goldberg, Matthew Tancik, Angjoo Kanazawa
cs.AI
Resumen
La agrupación es inherentemente ambigua debido a los múltiples niveles de granularidad en los que se puede descomponer una escena: ¿deberían las ruedas de una excavadora considerarse separadas o parte del todo? Presentamos Group Anything with Radiance Fields (GARField), un enfoque para descomponer escenas 3D en una jerarquía de grupos semánticamente significativos a partir de entradas de imágenes posicionadas. Para lograrlo, abrazamos la ambigüedad de la agrupación a través de la escala física: al optimizar un campo de características de afinidad 3D condicionado por la escala, un punto en el mundo puede pertenecer a diferentes grupos de distintos tamaños. Optimizamos este campo a partir de un conjunto de máscaras 2D proporcionadas por Segment Anything (SAM) de una manera que respeta la jerarquía de lo grueso a lo fino, utilizando la escala para fusionar consistentemente máscaras conflictivas desde diferentes puntos de vista. A partir de este campo, podemos derivar una jerarquía de posibles agrupaciones mediante la construcción automática de árboles o la interacción del usuario. Evaluamos GARField en una variedad de escenas del mundo real y encontramos que extrae efectivamente grupos en muchos niveles: agrupaciones de objetos, objetos y varias subpartes. GARField representa inherentemente agrupaciones consistentes en múltiples vistas y produce grupos de mayor fidelidad que las máscaras de entrada de SAM. La agrupación jerárquica de GARField podría tener aplicaciones emocionantes, como la extracción de activos 3D o la comprensión dinámica de escenas. Visite el sitio web del proyecto en https://www.garfield.studio/.
English
Grouping is inherently ambiguous due to the multiple levels of granularity in
which one can decompose a scene -- should the wheels of an excavator be
considered separate or part of the whole? We present Group Anything with
Radiance Fields (GARField), an approach for decomposing 3D scenes into a
hierarchy of semantically meaningful groups from posed image inputs. To do this
we embrace group ambiguity through physical scale: by optimizing a
scale-conditioned 3D affinity feature field, a point in the world can belong to
different groups of different sizes. We optimize this field from a set of 2D
masks provided by Segment Anything (SAM) in a way that respects coarse-to-fine
hierarchy, using scale to consistently fuse conflicting masks from different
viewpoints. From this field we can derive a hierarchy of possible groupings via
automatic tree construction or user interaction. We evaluate GARField on a
variety of in-the-wild scenes and find it effectively extracts groups at many
levels: clusters of objects, objects, and various subparts. GARField inherently
represents multi-view consistent groupings and produces higher fidelity groups
than the input SAM masks. GARField's hierarchical grouping could have exciting
downstream applications such as 3D asset extraction or dynamic scene
understanding. See the project website at https://www.garfield.studio/