ChatPaper.aiChatPaper

OpenShape: 개방형 세계 이해를 위한 3D 형태 표현의 확장

OpenShape: Scaling Up 3D Shape Representation Towards Open-World Understanding

May 18, 2023
저자: Minghua Liu, Ruoxi Shi, Kaiming Kuang, Yinhao Zhu, Xuanlin Li, Shizhong Han, Hong Cai, Fatih Porikli, Hao Su
cs.AI

초록

본 논문에서는 텍스트, 이미지, 그리고 포인트 클라우드의 다중 모달 결합 표현을 학습하기 위한 OpenShape 방법을 소개한다. 우리는 표현 정렬을 위해 널리 사용되는 다중 모달 대조 학습 프레임워크를 채택하되, 특히 오픈 월드 3D 형태 이해를 가능하게 하기 위해 3D 표현의 규모 확장에 초점을 맞췄다. 이를 위해 여러 3D 데이터셋을 앙상블하여 훈련 데이터의 규모를 확장하고, 노이즈가 있는 텍스트 설명을 자동으로 필터링하고 풍부하게 하는 여러 전략을 제안한다. 또한 3D 백본 네트워크의 규모 확장 전략을 탐구하고 비교하며, 보다 효율적인 훈련을 위한 새로운 하드 네거티브 마이닝 모듈을 도입한다. OpenShape은 제로샷 3D 분류 벤치마크에서 평가되었으며, 오픈 월드 인식에서의 우수한 능력을 입증한다. 구체적으로, OpenShape은 1,156개 카테고리의 Objaverse-LVIS 벤치마크에서 46.8%의 제로샷 정확도를 달성했으며, 이는 기존 방법의 10% 미만과 비교된다. 또한 ModelNet40에서 85.3%의 정확도를 달성하여, 이전의 제로샷 베이스라인 방법보다 20% 우수한 성능을 보였으며, 일부 완전 지도 학습 방법과도 비슷한 성능을 보였다. 더 나아가, 우리가 학습한 임베딩은 다양한 시각적 및 의미적 개념(예: 하위 카테고리, 색상, 형태, 스타일)을 인코딩하며, 세밀한 텍스트-3D 및 이미지-3D 상호작용을 촉진한다. CLIP 임베딩과의 정렬 덕분에, 우리가 학습한 형태 표현은 포인트 클라우드 캡셔닝 및 포인트 클라우드 조건 이미지 생성과 같은 다양한 응용 프로그램에서 기성 CLIP 기반 모델과 통합될 수 있다.
English
We introduce OpenShape, a method for learning multi-modal joint representations of text, image, and point clouds. We adopt the commonly used multi-modal contrastive learning framework for representation alignment, but with a specific focus on scaling up 3D representations to enable open-world 3D shape understanding. To achieve this, we scale up training data by ensembling multiple 3D datasets and propose several strategies to automatically filter and enrich noisy text descriptions. We also explore and compare strategies for scaling 3D backbone networks and introduce a novel hard negative mining module for more efficient training. We evaluate OpenShape on zero-shot 3D classification benchmarks and demonstrate its superior capabilities for open-world recognition. Specifically, OpenShape achieves a zero-shot accuracy of 46.8% on the 1,156-category Objaverse-LVIS benchmark, compared to less than 10% for existing methods. OpenShape also achieves an accuracy of 85.3% on ModelNet40, outperforming previous zero-shot baseline methods by 20% and performing on par with some fully-supervised methods. Furthermore, we show that our learned embeddings encode a wide range of visual and semantic concepts (e.g., subcategories, color, shape, style) and facilitate fine-grained text-3D and image-3D interactions. Due to their alignment with CLIP embeddings, our learned shape representations can also be integrated with off-the-shelf CLIP-based models for various applications, such as point cloud captioning and point cloud-conditioned image generation.
PDF64December 15, 2024