OpenShape: Schaalvergroting van 3D-vormrepresentatie richting open-wereldbegrip

Samenvatting

We introduceren OpenShape, een methode voor het leren van multi-modale gezamenlijke representaties van tekst, afbeeldingen en puntenwolken. We hanteren het veelgebruikte multi-modale contrastieve leerframework voor representatie-uitlijning, maar met een specifieke focus op het opschalen van 3D-representaties om open-wereld 3D-vormbegrip mogelijk te maken. Om dit te bereiken, schalen we de trainingsdata op door meerdere 3D-datasets te combineren en stellen we verschillende strategieën voor om automatisch ruisrijke tekstbeschrijvingen te filteren en te verrijken. We onderzoeken en vergelijken ook strategieën voor het opschalen van 3D-backbone-netwerken en introduceren een nieuwe hard negative mining-module voor efficiëntere training. We evalueren OpenShape op zero-shot 3D-classificatiebenchmarks en demonstreren de superieure mogelijkheden voor open-wereldherkenning. Specifiek behaalt OpenShape een zero-shot nauwkeurigheid van 46,8% op de 1.156-categorie Objaverse-LVIS benchmark, vergeleken met minder dan 10% voor bestaande methoden. OpenShape behaalt ook een nauwkeurigheid van 85,3% op ModelNet40, wat 20% beter is dan eerdere zero-shot baseline-methoden en vergelijkbaar met sommige volledig gesuperviseerde methoden. Verder tonen we aan dat onze geleerde embeddings een breed scala aan visuele en semantische concepten coderen (bijv. subcategorieën, kleur, vorm, stijl) en fijnmazige tekst-3D en afbeelding-3D-interacties mogelijk maken. Door hun uitlijning met CLIP-embeddings kunnen onze geleerde vormrepresentaties ook worden geïntegreerd met kant-en-klare CLIP-gebaseerde modellen voor diverse toepassingen, zoals puntenwolk-beschrijving en puntenwolk-gestuurde afbeeldingsgeneratie.

English

We introduce OpenShape, a method for learning multi-modal joint representations of text, image, and point clouds. We adopt the commonly used multi-modal contrastive learning framework for representation alignment, but with a specific focus on scaling up 3D representations to enable open-world 3D shape understanding. To achieve this, we scale up training data by ensembling multiple 3D datasets and propose several strategies to automatically filter and enrich noisy text descriptions. We also explore and compare strategies for scaling 3D backbone networks and introduce a novel hard negative mining module for more efficient training. We evaluate OpenShape on zero-shot 3D classification benchmarks and demonstrate its superior capabilities for open-world recognition. Specifically, OpenShape achieves a zero-shot accuracy of 46.8% on the 1,156-category Objaverse-LVIS benchmark, compared to less than 10% for existing methods. OpenShape also achieves an accuracy of 85.3% on ModelNet40, outperforming previous zero-shot baseline methods by 20% and performing on par with some fully-supervised methods. Furthermore, we show that our learned embeddings encode a wide range of visual and semantic concepts (e.g., subcategories, color, shape, style) and facilitate fine-grained text-3D and image-3D interactions. Due to their alignment with CLIP embeddings, our learned shape representations can also be integrated with off-the-shelf CLIP-based models for various applications, such as point cloud captioning and point cloud-conditioned image generation.

OpenShape: Schaalvergroting van 3D-vormrepresentatie richting open-wereldbegrip

OpenShape: Scaling Up 3D Shape Representation Towards Open-World Understanding

Samenvatting

Support