Detecção Generalizada de Fora da Distribuição e Além na Visão Linguagem Era do Modelo: Uma Pesquisa
Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey
July 31, 2024
Autores: Atsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Yueqian Lin, Qing Yu, Go Irie, Shafiq Joty, Yixuan Li, Hai Li, Ziwei Liu, Toshihiko Yamasaki, Kiyoharu Aizawa
cs.AI
Resumo
Detectar amostras fora da distribuição (OOD) é crucial para garantir a segurança dos sistemas de aprendizado de máquina e moldou o campo da detecção de OOD. Enquanto isso, vários outros problemas estão intimamente relacionados à detecção de OOD, incluindo detecção de anomalias (AD), detecção de novidades (ND), reconhecimento de conjunto aberto (OSR) e detecção de outliers (OD). Para unificar esses problemas, um framework generalizado de detecção de OOD foi proposto, categorizando taxonomicamente esses cinco problemas. No entanto, Modelos de Visão de Linguagem (VLMs) como o CLIP mudaram significativamente o paradigma e borraram as fronteiras entre esses campos, confundindo novamente os pesquisadores. Nesta pesquisa, apresentamos primeiro uma detecção generalizada de OOD v2, encapsulando a evolução de AD, ND, OSR, detecção de OOD e OD na era dos VLMs. Nosso framework revela que, com alguma inatividade e integração de campo, os desafios exigentes se tornaram detecção de OOD e AD. Além disso, destacamos também a mudança significativa na definição, configurações de problemas e benchmarks; assim, apresentamos uma revisão abrangente da metodologia para detecção de OOD, incluindo a discussão sobre outras tarefas relacionadas para esclarecer sua relação com a detecção de OOD. Por fim, exploramos os avanços na emergente era dos Grandes Modelos de Visão de Linguagem (LVLM), como o GPT-4V. Concluímos esta pesquisa com desafios em aberto e direções futuras.
English
Detecting out-of-distribution (OOD) samples is crucial for ensuring the
safety of machine learning systems and has shaped the field of OOD detection.
Meanwhile, several other problems are closely related to OOD detection,
including anomaly detection (AD), novelty detection (ND), open set recognition
(OSR), and outlier detection (OD). To unify these problems, a generalized OOD
detection framework was proposed, taxonomically categorizing these five
problems. However, Vision Language Models (VLMs) such as CLIP have
significantly changed the paradigm and blurred the boundaries between these
fields, again confusing researchers. In this survey, we first present a
generalized OOD detection v2, encapsulating the evolution of AD, ND, OSR, OOD
detection, and OD in the VLM era. Our framework reveals that, with some field
inactivity and integration, the demanding challenges have become OOD detection
and AD. In addition, we also highlight the significant shift in the definition,
problem settings, and benchmarks; we thus feature a comprehensive review of the
methodology for OOD detection, including the discussion over other related
tasks to clarify their relationship to OOD detection. Finally, we explore the
advancements in the emerging Large Vision Language Model (LVLM) era, such as
GPT-4V. We conclude this survey with open challenges and future directions.Summary
AI-Generated Summary