Algemene Detectie van Buiten-distributie en Verder in het Tijdperk van Visuele Taalmodellen: Een Overzicht
Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey
July 31, 2024
Auteurs: Atsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Yueqian Lin, Qing Yu, Go Irie, Shafiq Joty, Yixuan Li, Hai Li, Ziwei Liu, Toshihiko Yamasaki, Kiyoharu Aizawa
cs.AI
Samenvatting
Het detecteren van out-of-distribution (OOD) samples is cruciaal voor het waarborgen van de veiligheid van machine learning-systemen en heeft het vakgebied van OOD-detectie vormgegeven. Tegelijkertijd zijn er verschillende andere problemen die nauw verwant zijn aan OOD-detectie, waaronder anomaliedetectie (AD), nieuwigheiddetectie (ND), open set herkenning (OSR) en uitbijterdetectie (OD). Om deze problemen te verenigen, werd een gegeneraliseerd OOD-detectiekader voorgesteld, dat deze vijf problemen taxonomisch categoriseert. Vision Language Models (VLMs) zoals CLIP hebben echter het paradigma aanzienlijk veranderd en de grenzen tussen deze vakgebieden vervaagd, wat onderzoekers opnieuw in verwarring heeft gebracht. In dit overzicht presenteren we eerst een gegeneraliseerde OOD-detectie v2, die de evolutie van AD, ND, OSR, OOD-detectie en OD in het VLM-tijdperk omvat. Ons kader laat zien dat, met enige inactiviteit en integratie binnen het vakgebied, de meest veeleisende uitdagingen OOD-detectie en AD zijn geworden. Daarnaast benadrukken we ook de significante verschuiving in de definitie, probleemstellingen en benchmarks; we bieden daarom een uitgebreide review van de methodologie voor OOD-detectie, inclusief een discussie over andere gerelateerde taken om hun relatie met OOD-detectie te verduidelijken. Tot slot verkennen we de vooruitgang in het opkomende tijdperk van Large Vision Language Models (LVLMs), zoals GPT-4V. We sluiten dit overzicht af met open uitdagingen en toekomstige richtingen.
English
Detecting out-of-distribution (OOD) samples is crucial for ensuring the
safety of machine learning systems and has shaped the field of OOD detection.
Meanwhile, several other problems are closely related to OOD detection,
including anomaly detection (AD), novelty detection (ND), open set recognition
(OSR), and outlier detection (OD). To unify these problems, a generalized OOD
detection framework was proposed, taxonomically categorizing these five
problems. However, Vision Language Models (VLMs) such as CLIP have
significantly changed the paradigm and blurred the boundaries between these
fields, again confusing researchers. In this survey, we first present a
generalized OOD detection v2, encapsulating the evolution of AD, ND, OSR, OOD
detection, and OD in the VLM era. Our framework reveals that, with some field
inactivity and integration, the demanding challenges have become OOD detection
and AD. In addition, we also highlight the significant shift in the definition,
problem settings, and benchmarks; we thus feature a comprehensive review of the
methodology for OOD detection, including the discussion over other related
tasks to clarify their relationship to OOD detection. Finally, we explore the
advancements in the emerging Large Vision Language Model (LVLM) era, such as
GPT-4V. We conclude this survey with open challenges and future directions.