ChatPaper.aiChatPaper

Rilevamento Generalizzato delle Distribuzioni Fuori Campione e Oltre nell'Era dei Modelli di Visione e Linguaggio: Una Rassegna

Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey

July 31, 2024
Autori: Atsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Yueqian Lin, Qing Yu, Go Irie, Shafiq Joty, Yixuan Li, Hai Li, Ziwei Liu, Toshihiko Yamasaki, Kiyoharu Aizawa
cs.AI

Abstract

Il rilevamento di campioni fuori distribuzione (out-of-distribution, OOD) è cruciale per garantire la sicurezza dei sistemi di apprendimento automatico e ha plasmato il campo del rilevamento OOD. Nel frattempo, diversi altri problemi sono strettamente correlati al rilevamento OOD, tra cui il rilevamento di anomalie (anomaly detection, AD), il rilevamento di novità (novelty detection, ND), il riconoscimento in contesti aperti (open set recognition, OSR) e il rilevamento di outlier (outlier detection, OD). Per unificare questi problemi, è stato proposto un framework generalizzato di rilevamento OOD, che categorizza tassonomicamente questi cinque problemi. Tuttavia, i modelli visione-linguaggio (Vision Language Models, VLMs) come CLIP hanno significativamente cambiato il paradigma e sfumato i confini tra questi campi, confondendo nuovamente i ricercatori. In questo survey, presentiamo innanzitutto una versione generalizzata del rilevamento OOD v2, che racchiude l'evoluzione di AD, ND, OSR, rilevamento OOD e OD nell'era dei VLMs. Il nostro framework rivela che, con una certa inattività e integrazione tra i campi, le sfide più pressanti sono diventate il rilevamento OOD e AD. Inoltre, evidenziamo anche il significativo cambiamento nella definizione, nelle impostazioni dei problemi e nei benchmark; presentiamo quindi una revisione completa della metodologia per il rilevamento OOD, inclusa una discussione su altri compiti correlati per chiarire la loro relazione con il rilevamento OOD. Infine, esploriamo i progressi nell'emergente era dei grandi modelli visione-linguaggio (Large Vision Language Models, LVLM), come GPT-4V. Concludiamo questo survey con le sfide aperte e le direzioni future.
English
Detecting out-of-distribution (OOD) samples is crucial for ensuring the safety of machine learning systems and has shaped the field of OOD detection. Meanwhile, several other problems are closely related to OOD detection, including anomaly detection (AD), novelty detection (ND), open set recognition (OSR), and outlier detection (OD). To unify these problems, a generalized OOD detection framework was proposed, taxonomically categorizing these five problems. However, Vision Language Models (VLMs) such as CLIP have significantly changed the paradigm and blurred the boundaries between these fields, again confusing researchers. In this survey, we first present a generalized OOD detection v2, encapsulating the evolution of AD, ND, OSR, OOD detection, and OD in the VLM era. Our framework reveals that, with some field inactivity and integration, the demanding challenges have become OOD detection and AD. In addition, we also highlight the significant shift in the definition, problem settings, and benchmarks; we thus feature a comprehensive review of the methodology for OOD detection, including the discussion over other related tasks to clarify their relationship to OOD detection. Finally, we explore the advancements in the emerging Large Vision Language Model (LVLM) era, such as GPT-4V. We conclude this survey with open challenges and future directions.
PDF72November 28, 2024