ChatPaper.aiChatPaper

Обобщенное обнаружение внедоменных данных и за его пределами в моделях видео-языка: обзорный анализ времени моделей

Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey

July 31, 2024
Авторы: Atsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Yueqian Lin, Qing Yu, Go Irie, Shafiq Joty, Yixuan Li, Hai Li, Ziwei Liu, Toshihiko Yamasaki, Kiyoharu Aizawa
cs.AI

Аннотация

Обнаружение образцов вне распределения (OOD) критически важно для обеспечения безопасности систем машинного обучения и сформировало область обнаружения OOD. Тем временем, несколько других проблем тесно связаны с обнаружением OOD, включая обнаружение аномалий (AD), обнаружение новизны (ND), распознавание открытого множества (OSR) и обнаружение выбросов (OD). Для объединения этих проблем была предложена обобщенная методология обнаружения OOD, таксономически классифицирующая эти пять проблем. Однако модели видео-языка (VLM), такие как CLIP, значительно изменили парадигму и размыли границы между этими областями, снова сбивая с толку исследователей. В этом обзоре мы вначале представляем обобщенную методологию обнаружения OOD v2, охватывающую эволюцию AD, ND, OSR, обнаружения OOD и OD в эпоху VLM. Наша методология показывает, что с некоторой неактивностью и интеграцией в области, наиболее сложными вызовами стали обнаружение OOD и AD. Кроме того, мы также выделяем значительное изменение в определении, настройках проблемы и бенчмарках; таким образом, мы представляем всесторонний обзор методологии обнаружения OOD, включая обсуждение других связанных задач для уточнения их отношения к обнаружению OOD. Наконец, мы исследуем прогресс в эпоху возникновения крупных моделей видео-языка (LVLM), таких как GPT-4V. Мы завершаем этот обзор открытыми вызовами и перспективами.
English
Detecting out-of-distribution (OOD) samples is crucial for ensuring the safety of machine learning systems and has shaped the field of OOD detection. Meanwhile, several other problems are closely related to OOD detection, including anomaly detection (AD), novelty detection (ND), open set recognition (OSR), and outlier detection (OD). To unify these problems, a generalized OOD detection framework was proposed, taxonomically categorizing these five problems. However, Vision Language Models (VLMs) such as CLIP have significantly changed the paradigm and blurred the boundaries between these fields, again confusing researchers. In this survey, we first present a generalized OOD detection v2, encapsulating the evolution of AD, ND, OSR, OOD detection, and OD in the VLM era. Our framework reveals that, with some field inactivity and integration, the demanding challenges have become OOD detection and AD. In addition, we also highlight the significant shift in the definition, problem settings, and benchmarks; we thus feature a comprehensive review of the methodology for OOD detection, including the discussion over other related tasks to clarify their relationship to OOD detection. Finally, we explore the advancements in the emerging Large Vision Language Model (LVLM) era, such as GPT-4V. We conclude this survey with open challenges and future directions.

Summary

AI-Generated Summary

PDF62November 28, 2024