Обобщенное обнаружение внедоменных данных и за его пределами в моделях видео-языка: обзорный анализ времени моделей
Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey
July 31, 2024
Авторы: Atsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Yueqian Lin, Qing Yu, Go Irie, Shafiq Joty, Yixuan Li, Hai Li, Ziwei Liu, Toshihiko Yamasaki, Kiyoharu Aizawa
cs.AI
Аннотация
Обнаружение образцов вне распределения (OOD) критически важно для обеспечения безопасности систем машинного обучения и сформировало область обнаружения OOD. Тем временем, несколько других проблем тесно связаны с обнаружением OOD, включая обнаружение аномалий (AD), обнаружение новизны (ND), распознавание открытого множества (OSR) и обнаружение выбросов (OD). Для объединения этих проблем была предложена обобщенная методология обнаружения OOD, таксономически классифицирующая эти пять проблем. Однако модели видео-языка (VLM), такие как CLIP, значительно изменили парадигму и размыли границы между этими областями, снова сбивая с толку исследователей. В этом обзоре мы вначале представляем обобщенную методологию обнаружения OOD v2, охватывающую эволюцию AD, ND, OSR, обнаружения OOD и OD в эпоху VLM. Наша методология показывает, что с некоторой неактивностью и интеграцией в области, наиболее сложными вызовами стали обнаружение OOD и AD. Кроме того, мы также выделяем значительное изменение в определении, настройках проблемы и бенчмарках; таким образом, мы представляем всесторонний обзор методологии обнаружения OOD, включая обсуждение других связанных задач для уточнения их отношения к обнаружению OOD. Наконец, мы исследуем прогресс в эпоху возникновения крупных моделей видео-языка (LVLM), таких как GPT-4V. Мы завершаем этот обзор открытыми вызовами и перспективами.
English
Detecting out-of-distribution (OOD) samples is crucial for ensuring the
safety of machine learning systems and has shaped the field of OOD detection.
Meanwhile, several other problems are closely related to OOD detection,
including anomaly detection (AD), novelty detection (ND), open set recognition
(OSR), and outlier detection (OD). To unify these problems, a generalized OOD
detection framework was proposed, taxonomically categorizing these five
problems. However, Vision Language Models (VLMs) such as CLIP have
significantly changed the paradigm and blurred the boundaries between these
fields, again confusing researchers. In this survey, we first present a
generalized OOD detection v2, encapsulating the evolution of AD, ND, OSR, OOD
detection, and OD in the VLM era. Our framework reveals that, with some field
inactivity and integration, the demanding challenges have become OOD detection
and AD. In addition, we also highlight the significant shift in the definition,
problem settings, and benchmarks; we thus feature a comprehensive review of the
methodology for OOD detection, including the discussion over other related
tasks to clarify their relationship to OOD detection. Finally, we explore the
advancements in the emerging Large Vision Language Model (LVLM) era, such as
GPT-4V. We conclude this survey with open challenges and future directions.Summary
AI-Generated Summary