Обобщенное обнаружение внедоменных данных и за его пределами в моделях видео-языка: обзорный анализ времени моделей

Аннотация

Обнаружение образцов вне распределения (OOD) критически важно для обеспечения безопасности систем машинного обучения и сформировало область обнаружения OOD. Тем временем, несколько других проблем тесно связаны с обнаружением OOD, включая обнаружение аномалий (AD), обнаружение новизны (ND), распознавание открытого множества (OSR) и обнаружение выбросов (OD). Для объединения этих проблем была предложена обобщенная методология обнаружения OOD, таксономически классифицирующая эти пять проблем. Однако модели видео-языка (VLM), такие как CLIP, значительно изменили парадигму и размыли границы между этими областями, снова сбивая с толку исследователей. В этом обзоре мы вначале представляем обобщенную методологию обнаружения OOD v2, охватывающую эволюцию AD, ND, OSR, обнаружения OOD и OD в эпоху VLM. Наша методология показывает, что с некоторой неактивностью и интеграцией в области, наиболее сложными вызовами стали обнаружение OOD и AD. Кроме того, мы также выделяем значительное изменение в определении, настройках проблемы и бенчмарках; таким образом, мы представляем всесторонний обзор методологии обнаружения OOD, включая обсуждение других связанных задач для уточнения их отношения к обнаружению OOD. Наконец, мы исследуем прогресс в эпоху возникновения крупных моделей видео-языка (LVLM), таких как GPT-4V. Мы завершаем этот обзор открытыми вызовами и перспективами.

English

Detecting out-of-distribution (OOD) samples is crucial for ensuring the safety of machine learning systems and has shaped the field of OOD detection. Meanwhile, several other problems are closely related to OOD detection, including anomaly detection (AD), novelty detection (ND), open set recognition (OSR), and outlier detection (OD). To unify these problems, a generalized OOD detection framework was proposed, taxonomically categorizing these five problems. However, Vision Language Models (VLMs) such as CLIP have significantly changed the paradigm and blurred the boundaries between these fields, again confusing researchers. In this survey, we first present a generalized OOD detection v2, encapsulating the evolution of AD, ND, OSR, OOD detection, and OD in the VLM era. Our framework reveals that, with some field inactivity and integration, the demanding challenges have become OOD detection and AD. In addition, we also highlight the significant shift in the definition, problem settings, and benchmarks; we thus feature a comprehensive review of the methodology for OOD detection, including the discussion over other related tasks to clarify their relationship to OOD detection. Finally, we explore the advancements in the emerging Large Vision Language Model (LVLM) era, such as GPT-4V. We conclude this survey with open challenges and future directions.

Обобщенное обнаружение внедоменных данных и за его пределами в моделях видео-языка: обзорный анализ времени моделей

Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey

Аннотация

Support