ChatPaper.aiChatPaper

GARField: Groeperen van Alles met Radiance Velden

GARField: Group Anything with Radiance Fields

January 17, 2024
Auteurs: Chung Min Kim, Mingxuan Wu, Justin Kerr, Ken Goldberg, Matthew Tancik, Angjoo Kanazawa
cs.AI

Samenvatting

Groepering is inherent ambigu vanwege de meerdere niveaus van granulariteit waarop men een scène kan ontbinden — moeten de wielen van een graafmachine als apart worden beschouwd of als onderdeel van het geheel? Wij presenteren Group Anything with Radiance Fields (GARField), een benadering voor het ontbinden van 3D-scènes in een hiërarchie van semantisch betekenisvolle groepen op basis van gepositioneerde beeldinvoer. Om dit te doen, omarmen we groepsambiguïteit door middel van fysieke schaal: door een schaal-geconditioneerd 3D-affiniteitskenmerkveld te optimaliseren, kan een punt in de wereld tot verschillende groepen van verschillende grootte behoren. We optimaliseren dit veld vanuit een set van 2D-maskers die door Segment Anything (SAM) worden geleverd, op een manier die een grof-naar-fijn hiërarchie respecteert, waarbij schaal wordt gebruikt om tegenstrijdige maskers vanuit verschillende gezichtspunten consistent samen te voegen. Uit dit veld kunnen we een hiërarchie van mogelijke groeperingen afleiden via automatische boomconstructie of gebruikersinteractie. We evalueren GARField op een verscheidenheid aan scènes in het wild en ontdekken dat het effectief groepen op vele niveaus extraheert: clusters van objecten, objecten en diverse onderdelen. GARField vertegenwoordigt inherent multi-view consistente groeperingen en produceert groepen van hogere kwaliteit dan de invoer-SAM-maskers. De hiërarchische groepering van GARField zou spannende downstream-toepassingen kunnen hebben, zoals 3D-assetextractie of dynamische scènebegrip. Zie de projectwebsite op https://www.garfield.studio/
English
Grouping is inherently ambiguous due to the multiple levels of granularity in which one can decompose a scene -- should the wheels of an excavator be considered separate or part of the whole? We present Group Anything with Radiance Fields (GARField), an approach for decomposing 3D scenes into a hierarchy of semantically meaningful groups from posed image inputs. To do this we embrace group ambiguity through physical scale: by optimizing a scale-conditioned 3D affinity feature field, a point in the world can belong to different groups of different sizes. We optimize this field from a set of 2D masks provided by Segment Anything (SAM) in a way that respects coarse-to-fine hierarchy, using scale to consistently fuse conflicting masks from different viewpoints. From this field we can derive a hierarchy of possible groupings via automatic tree construction or user interaction. We evaluate GARField on a variety of in-the-wild scenes and find it effectively extracts groups at many levels: clusters of objects, objects, and various subparts. GARField inherently represents multi-view consistent groupings and produces higher fidelity groups than the input SAM masks. GARField's hierarchical grouping could have exciting downstream applications such as 3D asset extraction or dynamic scene understanding. See the project website at https://www.garfield.studio/
PDF212December 15, 2024