Détection Généralisée des Distributions Hors Domaine et Au-Delà à l'Ère des Modèles Vision-Langage : Une Revue
Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey
July 31, 2024
Auteurs: Atsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Yueqian Lin, Qing Yu, Go Irie, Shafiq Joty, Yixuan Li, Hai Li, Ziwei Liu, Toshihiko Yamasaki, Kiyoharu Aizawa
cs.AI
Résumé
La détection d'échantillons hors distribution (OOD) est cruciale pour garantir la sécurité des systèmes d'apprentissage automatique et a façonné le domaine de la détection OOD. Parallèlement, plusieurs autres problèmes sont étroitement liés à la détection OOD, notamment la détection d'anomalies (AD), la détection de nouveauté (ND), la reconnaissance en ensemble ouvert (OSR) et la détection de valeurs aberrantes (OD). Pour unifier ces problèmes, un cadre généralisé de détection OOD a été proposé, catégorisant taxonomiquement ces cinq problèmes. Cependant, les modèles de vision et langage (VLMs) tels que CLIP ont considérablement changé le paradigme et brouillé les frontières entre ces domaines, semant à nouveau la confusion parmi les chercheurs. Dans cette étude, nous présentons d'abord une version généralisée de la détection OOD v2, englobant l'évolution de l'AD, de la ND, de l'OSR, de la détection OOD et de l'OD à l'ère des VLMs. Notre cadre révèle qu'avec une certaine inactivité et intégration des domaines, les défis majeurs sont devenus la détection OOD et l'AD. De plus, nous mettons également en lumière un changement significatif dans la définition, les paramètres des problèmes et les benchmarks ; nous proposons donc une revue complète des méthodologies de détection OOD, incluant une discussion sur les autres tâches connexes pour clarifier leur relation avec la détection OOD. Enfin, nous explorons les avancées dans l'ère émergente des grands modèles de vision et langage (LVLMs), tels que GPT-4V. Nous concluons cette étude par les défis ouverts et les directions futures.
English
Detecting out-of-distribution (OOD) samples is crucial for ensuring the
safety of machine learning systems and has shaped the field of OOD detection.
Meanwhile, several other problems are closely related to OOD detection,
including anomaly detection (AD), novelty detection (ND), open set recognition
(OSR), and outlier detection (OD). To unify these problems, a generalized OOD
detection framework was proposed, taxonomically categorizing these five
problems. However, Vision Language Models (VLMs) such as CLIP have
significantly changed the paradigm and blurred the boundaries between these
fields, again confusing researchers. In this survey, we first present a
generalized OOD detection v2, encapsulating the evolution of AD, ND, OSR, OOD
detection, and OD in the VLM era. Our framework reveals that, with some field
inactivity and integration, the demanding challenges have become OOD detection
and AD. In addition, we also highlight the significant shift in the definition,
problem settings, and benchmarks; we thus feature a comprehensive review of the
methodology for OOD detection, including the discussion over other related
tasks to clarify their relationship to OOD detection. Finally, we explore the
advancements in the emerging Large Vision Language Model (LVLM) era, such as
GPT-4V. We conclude this survey with open challenges and future directions.Summary
AI-Generated Summary