Verallgemeinerte Erkennung von Out-of-Distribution und darüber hinaus in der Visionssprache Modell-Ära: Eine Umfrage

papers.abstract

Die Erkennung von Out-of-Distribution (OOD)-Proben ist entscheidend, um die Sicherheit von KI-Systemen zu gewährleisten und hat das Feld der OOD-Erkennung geprägt. Gleichzeitig sind mehrere andere Probleme eng mit der OOD-Erkennung verbunden, darunter Anomalieerkennung (AD), Neuheitenerkennung (ND), Open-Set-Erkennung (OSR) und Ausreißererkennung (OD). Zur Vereinheitlichung dieser Probleme wurde ein verallgemeinertes OOD-Erkennungsframework vorgeschlagen, das diese fünf Probleme taxonomisch kategorisiert. Allerdings haben Vision Language Models (VLMs) wie CLIP das Paradigma signifikant verändert und die Grenzen zwischen diesen Feldern verwischt, was Forscher erneut verunsichert hat. In dieser Übersicht präsentieren wir zunächst ein verallgemeinertes OOD-Erkennungsv2, das die Entwicklung von AD, ND, OSR, OOD-Erkennung und OD im VLM-Zeitalter zusammenfasst. Unser Framework zeigt auf, dass mit etwas Feldinaktivität und Integration die anspruchsvollen Herausforderungen zu OOD-Erkennung und AD geworden sind. Darüber hinaus heben wir auch die signifikante Verschiebung in der Definition, den Problemstellungen und Benchmarks hervor; wir bieten daher eine umfassende Überprüfung der Methodik für die OOD-Erkennung, einschließlich der Diskussion über andere verwandte Aufgaben, um deren Beziehung zur OOD-Erkennung zu klären. Abschließend erkunden wir die Fortschritte im aufkommenden Zeitalter der Large Vision Language Models (LVLM), wie z.B. GPT-4V. Wir schließen diese Übersicht mit offenen Herausforderungen und zukünftigen Richtungen ab.

English

Detecting out-of-distribution (OOD) samples is crucial for ensuring the safety of machine learning systems and has shaped the field of OOD detection. Meanwhile, several other problems are closely related to OOD detection, including anomaly detection (AD), novelty detection (ND), open set recognition (OSR), and outlier detection (OD). To unify these problems, a generalized OOD detection framework was proposed, taxonomically categorizing these five problems. However, Vision Language Models (VLMs) such as CLIP have significantly changed the paradigm and blurred the boundaries between these fields, again confusing researchers. In this survey, we first present a generalized OOD detection v2, encapsulating the evolution of AD, ND, OSR, OOD detection, and OD in the VLM era. Our framework reveals that, with some field inactivity and integration, the demanding challenges have become OOD detection and AD. In addition, we also highlight the significant shift in the definition, problem settings, and benchmarks; we thus feature a comprehensive review of the methodology for OOD detection, including the discussion over other related tasks to clarify their relationship to OOD detection. Finally, we explore the advancements in the emerging Large Vision Language Model (LVLM) era, such as GPT-4V. We conclude this survey with open challenges and future directions.

Verallgemeinerte Erkennung von Out-of-Distribution und darüber hinaus in der Visionssprache Modell-Ära: Eine Umfrage

Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey

papers.abstract

Support