ChatPaper.aiChatPaper

MuSc-V2: 레이블 없는 샘플 간 상호 평가를 통한 제로샷 멀티모달 산업 이상 분류 및 분할

MuSc-V2: Zero-Shot Multimodal Industrial Anomaly Classification and Segmentation with Mutual Scoring of Unlabeled Samples

November 13, 2025
저자: Xurui Li, Feng Xue, Yu Zhou
cs.AI

초록

제로샷 이상 분류(AC) 및 분할(AS) 방법은 레이블이 지정된 샘플을 전혀 사용하지 않고 결함을 식별하고 개요를 그리는 것을 목표로 합니다. 본 논문에서 우리는 기존 방법들이 간과한 중요한 특성을 밝힙니다: 산업 제품 전반의 정상 이미지 패치들은 2D 외관뿐만 아니라 3D 형태에서도 일반적으로 많은 다른 유사한 패치들을 발견하는 반면, 이상들은 다양하고 고립된 상태로 남아 있습니다. 우리는 이러한 판별 특성을 명시적으로 활용하기 위해 단일 2D/3D 또는 다중 모달리티를 유연하게 지원하는 제로샷 AC/AS를 위한 상호 평가 프레임워크(MuSc-V2)를 제안합니다. 구체적으로, 우리의 방법은 불연속적인 표면으로 인한 오탐지를 줄이는 반복적 포인트 그룹화(IPG)를 통해 3D 표현을 개선하는 것으로 시작합니다. 그런 다음 다중 차수 유사성 이웃 집계(SNAMD)를 사용하여 2D/3D 이웃 단서를 더욱 판별력 있는 다중 스케일 패치 특징으로 융합하여 상호 평가에 활용합니다. 핵심은 각 모달리티 내 샘플들이 서로에게 점수를 부여하도록 하는 상호 평가 메커니즘(MSM)과 2D와 3D 점수를 융합하여 모달리티별로 누락된 이상들을 복원하는 교차 모달 이상 향상(CAE)으로 구성됩니다. 마지막으로, 제약 이웃 재평가(RsCon)는 더 대표적인 샘플들과의 유사성을 기반으로 오분류를 억제합니다. 우리의 프레임워크는 전체 데이터셋과 더 작은 부분 집합 모두에서 일관되게 강력한 성능을 발휘하며 다양한 제품 라인에 걸쳐 원활한 적응성을 보장합니다. 이러한 새로운 프레임워크의 도움으로 MuSc-V2는 상당한 성능 향상을 달성했습니다: MVTec 3D-AD 데이터셋에서 +23.7% AP 향상, Eyecandies 데이터셋에서 +19.3% 향상을 기록하여 기존 제로샷 벤치마크를 능가하고 대부분의 퓨샷 방법보다도 뛰어난 성능을 보여줍니다. 코드는 https://github.com/HUST-SLOW/MuSc-V2에서 공개될 예정입니다.
English
Zero-shot anomaly classification (AC) and segmentation (AS) methods aim to identify and outline defects without using any labeled samples. In this paper, we reveal a key property that is overlooked by existing methods: normal image patches across industrial products typically find many other similar patches, not only in 2D appearance but also in 3D shapes, while anomalies remain diverse and isolated. To explicitly leverage this discriminative property, we propose a Mutual Scoring framework (MuSc-V2) for zero-shot AC/AS, which flexibly supports single 2D/3D or multimodality. Specifically, our method begins by improving 3D representation through Iterative Point Grouping (IPG), which reduces false positives from discontinuous surfaces. Then we use Similarity Neighborhood Aggregation with Multi-Degrees (SNAMD) to fuse 2D/3D neighborhood cues into more discriminative multi-scale patch features for mutual scoring. The core comprises a Mutual Scoring Mechanism (MSM) that lets samples within each modality to assign score to each other, and Cross-modal Anomaly Enhancement (CAE) that fuses 2D and 3D scores to recover modality-specific missing anomalies. Finally, Re-scoring with Constrained Neighborhood (RsCon) suppresses false classification based on similarity to more representative samples. Our framework flexibly works on both the full dataset and smaller subsets with consistently robust performance, ensuring seamless adaptability across diverse product lines. In aid of the novel framework, MuSc-V2 achieves significant performance improvements: a +23.7% AP gain on the MVTec 3D-AD dataset and a +19.3% boost on the Eyecandies dataset, surpassing previous zero-shot benchmarks and even outperforming most few-shot methods. The code will be available at The code will be available at https://github.com/HUST-SLOW/MuSc-V2{https://github.com/HUST-SLOW/MuSc-V2}.
PDF12December 1, 2025