ChatPaper.aiChatPaper

GARField: Группировка объектов с использованием полей излучения

GARField: Group Anything with Radiance Fields

January 17, 2024
Авторы: Chung Min Kim, Mingxuan Wu, Justin Kerr, Ken Goldberg, Matthew Tancik, Angjoo Kanazawa
cs.AI

Аннотация

Группировка по своей природе неоднозначна из-за множества уровней детализации, на которых можно декомпозировать сцену — следует ли рассматривать колеса экскаватора как отдельные элементы или как часть целого? Мы представляем Group Anything with Radiance Fields (GARField), подход для декомпозиции 3D-сцен в иерархию семантически значимых групп на основе входных данных с позиционированных изображений. Для этого мы принимаем неоднозначность группировки через физический масштаб: оптимизируя масштабно-обусловленное поле 3D-аффинных признаков, точка в мире может принадлежать разным группам разного размера. Мы оптимизируем это поле на основе набора 2D-масок, предоставленных Segment Anything (SAM), таким образом, чтобы учитывать иерархию от грубой к детальной, используя масштаб для согласованного объединения конфликтующих масок с разных точек зрения. Из этого поля мы можем вывести иерархию возможных группировок с помощью автоматического построения дерева или взаимодействия с пользователем. Мы оцениваем GARField на различных сценах в реальных условиях и обнаруживаем, что он эффективно извлекает группы на многих уровнях: кластеры объектов, объекты и различные их части. GARField естественным образом представляет согласованные группировки с нескольких точек зрения и создает группы с более высокой точностью, чем входные маски SAM. Иерархическая группировка GARField может иметь захватывающие приложения, такие как извлечение 3D-ассетов или понимание динамических сцен. Посетите сайт проекта по адресу https://www.garfield.studio/.
English
Grouping is inherently ambiguous due to the multiple levels of granularity in which one can decompose a scene -- should the wheels of an excavator be considered separate or part of the whole? We present Group Anything with Radiance Fields (GARField), an approach for decomposing 3D scenes into a hierarchy of semantically meaningful groups from posed image inputs. To do this we embrace group ambiguity through physical scale: by optimizing a scale-conditioned 3D affinity feature field, a point in the world can belong to different groups of different sizes. We optimize this field from a set of 2D masks provided by Segment Anything (SAM) in a way that respects coarse-to-fine hierarchy, using scale to consistently fuse conflicting masks from different viewpoints. From this field we can derive a hierarchy of possible groupings via automatic tree construction or user interaction. We evaluate GARField on a variety of in-the-wild scenes and find it effectively extracts groups at many levels: clusters of objects, objects, and various subparts. GARField inherently represents multi-view consistent groupings and produces higher fidelity groups than the input SAM masks. GARField's hierarchical grouping could have exciting downstream applications such as 3D asset extraction or dynamic scene understanding. See the project website at https://www.garfield.studio/
PDF222December 15, 2024