ChatPaper.aiChatPaper

GARField:ラディアンスフィールドによるグループ化

GARField: Group Anything with Radiance Fields

January 17, 2024
著者: Chung Min Kim, Mingxuan Wu, Justin Kerr, Ken Goldberg, Matthew Tancik, Angjoo Kanazawa
cs.AI

要旨

グループ化は、シーンを分解する際の複数の粒度レベルに起因して本質的に曖昧さを伴います。例えば、ショベルカーの車輪は独立したものと見なすべきか、全体の一部と見なすべきでしょうか?本論文では、Group Anything with Radiance Fields (GARField)を提案します。これは、ポーズ付き画像入力から3Dシーンを意味的に意味のあるグループの階層に分解するアプローチです。これを実現するために、物理的なスケールを通じてグループの曖昧さを受け入れます。スケール条件付きの3Dアフィニティ特徴フィールドを最適化することで、世界内の点が異なるサイズの異なるグループに属することが可能になります。このフィールドは、Segment Anything (SAM)によって提供された2Dマスクのセットから、粗から細への階層を尊重する形で最適化され、異なる視点からの矛盾するマスクを一貫して融合するためにスケールが使用されます。このフィールドから、自動ツリー構築またはユーザーインタラクションを通じて可能なグループ化の階層を導出できます。GARFieldをさまざまな実世界のシーンで評価した結果、オブジェクトのクラスター、オブジェクト、およびさまざまなサブパーツなど、多くのレベルで効果的にグループを抽出することがわかりました。GARFieldは、マルチビュー一貫性のあるグループ化を本質的に表現し、入力SAMマスクよりも高忠実度のグループを生成します。GARFieldの階層的グループ化は、3Dアセット抽出や動的シーン理解など、エキサイティングな下流アプリケーションに活用される可能性があります。プロジェクトのウェブサイトはhttps://www.garfield.studio/をご覧ください。
English
Grouping is inherently ambiguous due to the multiple levels of granularity in which one can decompose a scene -- should the wheels of an excavator be considered separate or part of the whole? We present Group Anything with Radiance Fields (GARField), an approach for decomposing 3D scenes into a hierarchy of semantically meaningful groups from posed image inputs. To do this we embrace group ambiguity through physical scale: by optimizing a scale-conditioned 3D affinity feature field, a point in the world can belong to different groups of different sizes. We optimize this field from a set of 2D masks provided by Segment Anything (SAM) in a way that respects coarse-to-fine hierarchy, using scale to consistently fuse conflicting masks from different viewpoints. From this field we can derive a hierarchy of possible groupings via automatic tree construction or user interaction. We evaluate GARField on a variety of in-the-wild scenes and find it effectively extracts groups at many levels: clusters of objects, objects, and various subparts. GARField inherently represents multi-view consistent groupings and produces higher fidelity groups than the input SAM masks. GARField's hierarchical grouping could have exciting downstream applications such as 3D asset extraction or dynamic scene understanding. See the project website at https://www.garfield.studio/
PDF222December 15, 2024