MetaUAS: Универсальная сегментация аномалий с метаобучением на основе одного промпта
MetaUAS: Universal Anomaly Segmentation with One-Prompt Meta-Learning
May 14, 2025
Авторы: Bin-Bin Gao
cs.AI
Аннотация
Сегментация визуальных аномалий в условиях нулевого и малого числа примеров опирается на мощные модели, объединяющие зрение и язык, которые обнаруживают неизвестные аномалии с помощью вручную разработанных текстовых запросов. Однако визуальные представления по своей природе независимы от языка. В данной работе мы исследуем потенциал чисто визуальной базовой модели в качестве альтернативы широко используемым моделям, объединяющим зрение и язык, для универсальной сегментации визуальных аномалий. Мы представляем новую парадигму, которая объединяет сегментацию аномалий в сегментацию изменений. Эта парадигма позволяет нам использовать крупномасштабные синтетические пары изображений, содержащие изменения на уровне объектов и локальных областей, полученные из существующих наборов данных изображений, которые независимы от целевых наборов данных аномалий. Мы предлагаем фреймворк метаобучения с одним запросом для универсальной сегментации аномалий (MetaUAS), который обучается на этом синтетическом наборе данных и затем успешно обобщается для сегментации любых новых или неизвестных визуальных аномалий в реальном мире. Для обработки геометрических вариаций между изображениями запроса и подсказки мы предлагаем модуль мягкого выравнивания признаков, который связывает восприятие изменений на парных изображениях и семантическую сегментацию на одиночных изображениях. Это первая работа, которая достигает универсальной сегментации аномалий с использованием чисто визуальной модели без опоры на специальные наборы данных для обнаружения аномалий и предварительно обученные модели, объединяющие зрение и язык. Наш метод эффективно и результативно сегментирует любые аномалии с использованием всего одного изображения-подсказки нормального состояния и не требует обучения без руководства со стороны языка. Наш MetaUAS значительно превосходит предыдущие методы сегментации аномалий с нулевым, малым и даже полным числом примеров. Код и предварительно обученные модели доступны по адресу https://github.com/gaobb/MetaUAS.
English
Zero- and few-shot visual anomaly segmentation relies on powerful
vision-language models that detect unseen anomalies using manually designed
textual prompts. However, visual representations are inherently independent of
language. In this paper, we explore the potential of a pure visual foundation
model as an alternative to widely used vision-language models for universal
visual anomaly segmentation. We present a novel paradigm that unifies anomaly
segmentation into change segmentation. This paradigm enables us to leverage
large-scale synthetic image pairs, featuring object-level and local region
changes, derived from existing image datasets, which are independent of target
anomaly datasets. We propose a one-prompt Meta-learning framework for Universal
Anomaly Segmentation (MetaUAS) that is trained on this synthetic dataset and
then generalizes well to segment any novel or unseen visual anomalies in the
real world. To handle geometrical variations between prompt and query images,
we propose a soft feature alignment module that bridges paired-image change
perception and single-image semantic segmentation. This is the first work to
achieve universal anomaly segmentation using a pure vision model without
relying on special anomaly detection datasets and pre-trained visual-language
models. Our method effectively and efficiently segments any anomalies with only
one normal image prompt and enjoys training-free without guidance from
language. Our MetaUAS significantly outperforms previous zero-shot, few-shot,
and even full-shot anomaly segmentation methods. The code and pre-trained
models are available at https://github.com/gaobb/MetaUAS.Summary
AI-Generated Summary