비전 언어 모델 시대의 일반화된 분포 외 탐지 및 그 이상: 연구 동향 분석
Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey
July 31, 2024
저자: Atsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Yueqian Lin, Qing Yu, Go Irie, Shafiq Joty, Yixuan Li, Hai Li, Ziwei Liu, Toshihiko Yamasaki, Kiyoharu Aizawa
cs.AI
초록
분포 외(Out-of-Distribution, OOD) 샘플 탐지는 머신러닝 시스템의 안전성을 보장하는 데 있어 핵심적인 역할을 하며, 이는 OOD 탐지 분야를 형성하는 데 기여해 왔습니다. 동시에, 이상 탐지(Anomaly Detection, AD), 신규성 탐지(Novelty Detection, ND), 개방형 집합 인식(Open Set Recognition, OSR), 그리고 이상치 탐지(Outlier Detection, OD)와 같은 여러 문제들이 OOD 탐지와 밀접하게 관련되어 있습니다. 이러한 문제들을 통합하기 위해, 일반화된 OOD 탐지 프레임워크가 제안되었으며, 이는 다섯 가지 문제를 체계적으로 분류합니다. 그러나 CLIP과 같은 비전 언어 모델(Vision Language Models, VLMs)은 패러다임을 크게 변화시키고 이러한 분야 간의 경계를 흐리게 함으로써 연구자들을 다시 혼란에 빠뜨렸습니다. 본 조사에서는 먼저 VLM 시대의 AD, ND, OSR, OOD 탐지, 그리고 OD의 진화를 포괄하는 일반화된 OOD 탐지 v2를 제시합니다. 우리의 프레임워크는 일부 분야의 비활성화와 통합을 통해, 주요 도전 과제가 OOD 탐지와 AD로 축소되었음을 보여줍니다. 또한, 정의, 문제 설정, 벤치마크의 상당한 변화를 강조하며, OOD 탐지 방법론에 대한 포괄적인 리뷰를 제공하고, 이를 통해 다른 관련 작업들과의 관계를 명확히 합니다. 마지막으로, GPT-4V와 같은 대규모 비전 언어 모델(Large Vision Language Model, LVLM) 시대의 발전을 탐구합니다. 본 조사는 열린 도전 과제와 미래 방향으로 마무리됩니다.
English
Detecting out-of-distribution (OOD) samples is crucial for ensuring the
safety of machine learning systems and has shaped the field of OOD detection.
Meanwhile, several other problems are closely related to OOD detection,
including anomaly detection (AD), novelty detection (ND), open set recognition
(OSR), and outlier detection (OD). To unify these problems, a generalized OOD
detection framework was proposed, taxonomically categorizing these five
problems. However, Vision Language Models (VLMs) such as CLIP have
significantly changed the paradigm and blurred the boundaries between these
fields, again confusing researchers. In this survey, we first present a
generalized OOD detection v2, encapsulating the evolution of AD, ND, OSR, OOD
detection, and OD in the VLM era. Our framework reveals that, with some field
inactivity and integration, the demanding challenges have become OOD detection
and AD. In addition, we also highlight the significant shift in the definition,
problem settings, and benchmarks; we thus feature a comprehensive review of the
methodology for OOD detection, including the discussion over other related
tasks to clarify their relationship to OOD detection. Finally, we explore the
advancements in the emerging Large Vision Language Model (LVLM) era, such as
GPT-4V. We conclude this survey with open challenges and future directions.Summary
AI-Generated Summary