MuSc-V2: ラベルなしサンプルの相互スコアリングによるゼロショットマルチモーダル産業用異常分類・セグメンテーション
MuSc-V2: Zero-Shot Multimodal Industrial Anomaly Classification and Segmentation with Mutual Scoring of Unlabeled Samples
November 13, 2025
著者: Xurui Li, Feng Xue, Yu Zhou
cs.AI
要旨
ゼロショット異常分類(AC)と異常領域分割(AS)手法は、ラベル付きサンプルを一切使用せずに欠陥を識別し輪郭を描くことを目的とする。本論文では、既存手法が見落としている重要な特性を明らかにする:工業製品に共通する正常な画像パッチは、2D外観だけでなく3D形状においても、多くの類似パッチが存在するのに対し、異常は多様で孤立したままであるという事実である。この識別性の高い特性を明示的に活用するため、ゼロショットAC/AS向けの相互スコアリングフレームワーク(MuSc-V2)を提案する。本フレームワークは、単一の2D/3Dまたはマルチモダリティを柔軟にサポートする。具体的には、まず反復的点群グループ化(IPG)により3D表現を改善し、不連続表面からの誤検出を低減する。次に、複数次数による類似近傍集約(SNAMD)を用いて、2D/3D近傍手がかりをより識別性の高いマルチスケールパッチ特徴量に統合し、相互スコアリングに供する。中核となるのは、各モダリティ内のサンプルが互いにスコアを付与する相互スコアリング機構(MSM)と、2Dと3Dのスコアを融合してモダリティ固有の検出漏れ異常を補完するクロスモーダル異常強調(CAE)である。最後に、制約付き近傍再スコアリング(RsCon)により、より代表性の高いサンプルとの類似性に基づく誤分類を抑制する。本フレームワークは、データセット全体およびより小規模な部分集合の両方で、一貫してロバストな性能を発揮し、多様な製品ラインにわたるシームレスな適応性を確保する。この新規フレームワークにより、MuSc-V2は顕著な性能向上を達成した:MVTec 3D-ADデータセットで+23.7%AP、Eyecandiesデータセットで+19.3%APの向上を実現し、従来のゼロショットベンチマークを凌駕し、ほとんどの数ショット手法をも上回った。コードはhttps://github.com/HUST-SLOW/MuSc-V2 で公開予定である。
English
Zero-shot anomaly classification (AC) and segmentation (AS) methods aim to identify and outline defects without using any labeled samples. In this paper, we reveal a key property that is overlooked by existing methods: normal image patches across industrial products typically find many other similar patches, not only in 2D appearance but also in 3D shapes, while anomalies remain diverse and isolated. To explicitly leverage this discriminative property, we propose a Mutual Scoring framework (MuSc-V2) for zero-shot AC/AS, which flexibly supports single 2D/3D or multimodality. Specifically, our method begins by improving 3D representation through Iterative Point Grouping (IPG), which reduces false positives from discontinuous surfaces. Then we use Similarity Neighborhood Aggregation with Multi-Degrees (SNAMD) to fuse 2D/3D neighborhood cues into more discriminative multi-scale patch features for mutual scoring. The core comprises a Mutual Scoring Mechanism (MSM) that lets samples within each modality to assign score to each other, and Cross-modal Anomaly Enhancement (CAE) that fuses 2D and 3D scores to recover modality-specific missing anomalies. Finally, Re-scoring with Constrained Neighborhood (RsCon) suppresses false classification based on similarity to more representative samples. Our framework flexibly works on both the full dataset and smaller subsets with consistently robust performance, ensuring seamless adaptability across diverse product lines. In aid of the novel framework, MuSc-V2 achieves significant performance improvements: a +23.7% AP gain on the MVTec 3D-AD dataset and a +19.3% boost on the Eyecandies dataset, surpassing previous zero-shot benchmarks and even outperforming most few-shot methods. The code will be available at The code will be available at https://github.com/HUST-SLOW/MuSc-V2{https://github.com/HUST-SLOW/MuSc-V2}.