Verallgemeinerte Erkennung von Out-of-Distribution und darüber hinaus in der Visionssprache Modell-Ära: Eine Umfrage
Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey
July 31, 2024
Autoren: Atsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Yueqian Lin, Qing Yu, Go Irie, Shafiq Joty, Yixuan Li, Hai Li, Ziwei Liu, Toshihiko Yamasaki, Kiyoharu Aizawa
cs.AI
Zusammenfassung
Die Erkennung von Out-of-Distribution (OOD)-Proben ist entscheidend, um die Sicherheit von KI-Systemen zu gewährleisten und hat das Feld der OOD-Erkennung geprägt. Gleichzeitig sind mehrere andere Probleme eng mit der OOD-Erkennung verbunden, darunter Anomalieerkennung (AD), Neuheitenerkennung (ND), Open-Set-Erkennung (OSR) und Ausreißererkennung (OD). Zur Vereinheitlichung dieser Probleme wurde ein verallgemeinertes OOD-Erkennungsframework vorgeschlagen, das diese fünf Probleme taxonomisch kategorisiert. Allerdings haben Vision Language Models (VLMs) wie CLIP das Paradigma signifikant verändert und die Grenzen zwischen diesen Feldern verwischt, was Forscher erneut verunsichert hat. In dieser Übersicht präsentieren wir zunächst ein verallgemeinertes OOD-Erkennungsv2, das die Entwicklung von AD, ND, OSR, OOD-Erkennung und OD im VLM-Zeitalter zusammenfasst. Unser Framework zeigt auf, dass mit etwas Feldinaktivität und Integration die anspruchsvollen Herausforderungen zu OOD-Erkennung und AD geworden sind. Darüber hinaus heben wir auch die signifikante Verschiebung in der Definition, den Problemstellungen und Benchmarks hervor; wir bieten daher eine umfassende Überprüfung der Methodik für die OOD-Erkennung, einschließlich der Diskussion über andere verwandte Aufgaben, um deren Beziehung zur OOD-Erkennung zu klären. Abschließend erkunden wir die Fortschritte im aufkommenden Zeitalter der Large Vision Language Models (LVLM), wie z.B. GPT-4V. Wir schließen diese Übersicht mit offenen Herausforderungen und zukünftigen Richtungen ab.
English
Detecting out-of-distribution (OOD) samples is crucial for ensuring the
safety of machine learning systems and has shaped the field of OOD detection.
Meanwhile, several other problems are closely related to OOD detection,
including anomaly detection (AD), novelty detection (ND), open set recognition
(OSR), and outlier detection (OD). To unify these problems, a generalized OOD
detection framework was proposed, taxonomically categorizing these five
problems. However, Vision Language Models (VLMs) such as CLIP have
significantly changed the paradigm and blurred the boundaries between these
fields, again confusing researchers. In this survey, we first present a
generalized OOD detection v2, encapsulating the evolution of AD, ND, OSR, OOD
detection, and OD in the VLM era. Our framework reveals that, with some field
inactivity and integration, the demanding challenges have become OOD detection
and AD. In addition, we also highlight the significant shift in the definition,
problem settings, and benchmarks; we thus feature a comprehensive review of the
methodology for OOD detection, including the discussion over other related
tasks to clarify their relationship to OOD detection. Finally, we explore the
advancements in the emerging Large Vision Language Model (LVLM) era, such as
GPT-4V. We conclude this survey with open challenges and future directions.Summary
AI-Generated Summary