ChatPaper.aiChatPaper

GARField: Agrupamento de Qualquer Coisa com Campos de Radiação

GARField: Group Anything with Radiance Fields

January 17, 2024
Autores: Chung Min Kim, Mingxuan Wu, Justin Kerr, Ken Goldberg, Matthew Tancik, Angjoo Kanazawa
cs.AI

Resumo

O agrupamento é inerentemente ambíguo devido aos múltiplos níveis de granularidade em que uma cena pode ser decomposta — as rodas de uma escavadeira devem ser consideradas separadas ou parte do todo? Apresentamos o Group Anything with Radiance Fields (GARField), uma abordagem para decompor cenas 3D em uma hierarquia de grupos semanticamente significativos a partir de imagens com pose conhecida. Para isso, abraçamos a ambiguidade do agrupamento por meio da escala física: ao otimizar um campo de características de afinidade 3D condicionado por escala, um ponto no mundo pode pertencer a diferentes grupos de diferentes tamanhos. Otimizamos esse campo a partir de um conjunto de máscaras 2D fornecidas pelo Segment Anything (SAM), de forma a respeitar uma hierarquia de granularidade grossa para fina, usando a escala para fundir consistentemente máscaras conflitantes de diferentes pontos de vista. A partir desse campo, podemos derivar uma hierarquia de possíveis agrupamentos por meio de construção automática de árvore ou interação do usuário. Avaliamos o GARField em uma variedade de cenas do mundo real e descobrimos que ele extrai efetivamente grupos em vários níveis: aglomerados de objetos, objetos e várias subpartes. O GARField representa inerentemente agrupamentos consistentes em múltiplas visões e produz grupos com maior fidelidade do que as máscaras de entrada do SAM. O agrupamento hierárquico do GARField pode ter aplicações emocionantes, como extração de ativos 3D ou compreensão dinâmica de cenas. Consulte o site do projeto em https://www.garfield.studio/.
English
Grouping is inherently ambiguous due to the multiple levels of granularity in which one can decompose a scene -- should the wheels of an excavator be considered separate or part of the whole? We present Group Anything with Radiance Fields (GARField), an approach for decomposing 3D scenes into a hierarchy of semantically meaningful groups from posed image inputs. To do this we embrace group ambiguity through physical scale: by optimizing a scale-conditioned 3D affinity feature field, a point in the world can belong to different groups of different sizes. We optimize this field from a set of 2D masks provided by Segment Anything (SAM) in a way that respects coarse-to-fine hierarchy, using scale to consistently fuse conflicting masks from different viewpoints. From this field we can derive a hierarchy of possible groupings via automatic tree construction or user interaction. We evaluate GARField on a variety of in-the-wild scenes and find it effectively extracts groups at many levels: clusters of objects, objects, and various subparts. GARField inherently represents multi-view consistent groupings and produces higher fidelity groups than the input SAM masks. GARField's hierarchical grouping could have exciting downstream applications such as 3D asset extraction or dynamic scene understanding. See the project website at https://www.garfield.studio/
PDF212December 15, 2024