MuSc-V2 : Classification et segmentation zéro-shot des anomalies industrielles multimodales par évaluation mutuelle d'échantillons non étiquetés
MuSc-V2: Zero-Shot Multimodal Industrial Anomaly Classification and Segmentation with Mutual Scoring of Unlabeled Samples
November 13, 2025
papers.authors: Xurui Li, Feng Xue, Yu Zhou
cs.AI
papers.abstract
Les méthodes de classification (AC) et de segmentation (AS) d'anomalies en mode zero-shot visent à identifier et délimiter les défauts sans utiliser aucun échantillon étiqueté. Dans cet article, nous mettons en évidence une propriété cruciale négligée par les méthodes existantes : les patches d'images normales provenant de produits industriels trouvent généralement de nombreux autres patches similaires, non seulement en apparence 2D mais aussi en formes 3D, tandis que les anomalies restent diverses et isolées. Pour exploiter explicitement cette propriété discriminante, nous proposons un cadre de notation mutuelle (MuSc-V2) pour l'AC/AS zero-shot, qui prend flexiblement en charge les données unimodales 2D/3D ou multimodales. Concrètement, notre méthode commence par améliorer la représentation 3D via un regroupement itératif de points (IPG), réduisant les faux positifs causés par les surfaces discontinues. Ensuite, nous utilisons une agrégation de voisinage par similarité à degrés multiples (SNAMD) pour fusionner les indices de voisinage 2D/3D en caractéristiques de patches multi-échelles plus discriminantes, en vue d'une notation mutuelle. Le cœur du système comprend un mécanisme de notation mutuelle (MSM) permettant aux échantillons de chaque modalité de s'attribuer mutuellement des scores, et un renforcement d'anomalies cross-modales (CAE) qui fusionne les scores 2D et 3D pour retrouver les anomalies manquantes spécifiques à chaque modalité. Enfin, une re-notation avec voisinage contraint (RsCon) supprime les fausses classifications basées sur la similarité avec des échantillons plus représentatifs. Notre cadre fonctionne flexiblement autant sur le jeu de données complet que sur des sous-ensembles plus restreints avec une performance robuste et constante, garantissant une adaptabilité transparente across différentes lignes de produits. Grâce à cette nouvelle architecture, MuSc-V2 réalise des améliorations significatives : un gain de +23,7% en AP sur le jeu de données MVTec 3D-AD et une augmentation de +19,3% sur le jeu de données Eyecandies, surpassant les benchmarks zero-shot précédents et devançant même la plupart des méthodes few-shot. Le code sera disponible à l'adresse https://github.com/HUST-SLOW/MuSc-V2.
English
Zero-shot anomaly classification (AC) and segmentation (AS) methods aim to identify and outline defects without using any labeled samples. In this paper, we reveal a key property that is overlooked by existing methods: normal image patches across industrial products typically find many other similar patches, not only in 2D appearance but also in 3D shapes, while anomalies remain diverse and isolated. To explicitly leverage this discriminative property, we propose a Mutual Scoring framework (MuSc-V2) for zero-shot AC/AS, which flexibly supports single 2D/3D or multimodality. Specifically, our method begins by improving 3D representation through Iterative Point Grouping (IPG), which reduces false positives from discontinuous surfaces. Then we use Similarity Neighborhood Aggregation with Multi-Degrees (SNAMD) to fuse 2D/3D neighborhood cues into more discriminative multi-scale patch features for mutual scoring. The core comprises a Mutual Scoring Mechanism (MSM) that lets samples within each modality to assign score to each other, and Cross-modal Anomaly Enhancement (CAE) that fuses 2D and 3D scores to recover modality-specific missing anomalies. Finally, Re-scoring with Constrained Neighborhood (RsCon) suppresses false classification based on similarity to more representative samples. Our framework flexibly works on both the full dataset and smaller subsets with consistently robust performance, ensuring seamless adaptability across diverse product lines. In aid of the novel framework, MuSc-V2 achieves significant performance improvements: a +23.7% AP gain on the MVTec 3D-AD dataset and a +19.3% boost on the Eyecandies dataset, surpassing previous zero-shot benchmarks and even outperforming most few-shot methods. The code will be available at The code will be available at https://github.com/HUST-SLOW/MuSc-V2{https://github.com/HUST-SLOW/MuSc-V2}.