ChatPaper.aiChatPaper

Segmentation généralisée de nuages de points 3D en peu de coups avec un modèle vision-langage

Generalized Few-shot 3D Point Cloud Segmentation with Vision-Language Model

March 20, 2025
Auteurs: Zhaochong An, Guolei Sun, Yun Liu, Runjia Li, Junlin Han, Ender Konukoglu, Serge Belongie
cs.AI

Résumé

La segmentation généralisée de nuages de points 3D en few-shot (GFS-PCS) adapte les modèles à de nouvelles classes avec peu d'échantillons de support tout en conservant la segmentation des classes de base. Les méthodes existantes de GFS-PCS améliorent les prototypes en interagissant avec les caractéristiques de support ou de requête, mais restent limitées par la connaissance parcellaire issue des échantillons few-shot. Parallèlement, les modèles vision-langage 3D (3D VLMs), qui généralisent à travers des classes nouvelles du monde ouvert, contiennent une connaissance riche mais bruyante des classes nouvelles. Dans ce travail, nous introduisons un cadre GFS-PCS qui combine les pseudo-étiquettes denses mais bruyantes des 3D VLMs avec les échantillons few-shot précis mais rares pour maximiser les forces des deux, nommé GFS-VL. Plus précisément, nous proposons une sélection de pseudo-étiquettes guidée par les prototypes pour filtrer les régions de faible qualité, suivie d'une stratégie de remplissage adaptatif qui combine les connaissances des contextes de pseudo-étiquettes et des échantillons few-shot pour étiqueter de manière adaptative les zones filtrées et non étiquetées. De plus, nous concevons une stratégie de mélange nouvelle-base pour intégrer les échantillons few-shot dans les scènes d'entraînement, préservant le contexte essentiel pour un meilleur apprentissage des classes nouvelles. Par ailleurs, reconnaissant la diversité limitée des benchmarks actuels de GFS-PCS, nous introduisons deux benchmarks exigeants avec des classes nouvelles variées pour une évaluation complète de la généralisation. Les expériences valident l'efficacité de notre cadre à travers les modèles et les jeux de données. Notre approche et nos benchmarks fournissent une base solide pour faire progresser la GFS-PCS dans le monde réel. Le code est disponible à l'adresse suivante : https://github.com/ZhaochongAn/GFS-VL.
English
Generalized few-shot 3D point cloud segmentation (GFS-PCS) adapts models to new classes with few support samples while retaining base class segmentation. Existing GFS-PCS methods enhance prototypes via interacting with support or query features but remain limited by sparse knowledge from few-shot samples. Meanwhile, 3D vision-language models (3D VLMs), generalizing across open-world novel classes, contain rich but noisy novel class knowledge. In this work, we introduce a GFS-PCS framework that synergizes dense but noisy pseudo-labels from 3D VLMs with precise yet sparse few-shot samples to maximize the strengths of both, named GFS-VL. Specifically, we present a prototype-guided pseudo-label selection to filter low-quality regions, followed by an adaptive infilling strategy that combines knowledge from pseudo-label contexts and few-shot samples to adaptively label the filtered, unlabeled areas. Additionally, we design a novel-base mix strategy to embed few-shot samples into training scenes, preserving essential context for improved novel class learning. Moreover, recognizing the limited diversity in current GFS-PCS benchmarks, we introduce two challenging benchmarks with diverse novel classes for comprehensive generalization evaluation. Experiments validate the effectiveness of our framework across models and datasets. Our approach and benchmarks provide a solid foundation for advancing GFS-PCS in the real world. The code is at https://github.com/ZhaochongAn/GFS-VL

Summary

AI-Generated Summary

PDF52March 24, 2025