Detecção Generalizada de Fora da Distribuição e Além na Visão Linguagem Era do Modelo: Uma Pesquisa

Resumo

Detectar amostras fora da distribuição (OOD) é crucial para garantir a segurança dos sistemas de aprendizado de máquina e moldou o campo da detecção de OOD. Enquanto isso, vários outros problemas estão intimamente relacionados à detecção de OOD, incluindo detecção de anomalias (AD), detecção de novidades (ND), reconhecimento de conjunto aberto (OSR) e detecção de outliers (OD). Para unificar esses problemas, um framework generalizado de detecção de OOD foi proposto, categorizando taxonomicamente esses cinco problemas. No entanto, Modelos de Visão de Linguagem (VLMs) como o CLIP mudaram significativamente o paradigma e borraram as fronteiras entre esses campos, confundindo novamente os pesquisadores. Nesta pesquisa, apresentamos primeiro uma detecção generalizada de OOD v2, encapsulando a evolução de AD, ND, OSR, detecção de OOD e OD na era dos VLMs. Nosso framework revela que, com alguma inatividade e integração de campo, os desafios exigentes se tornaram detecção de OOD e AD. Além disso, destacamos também a mudança significativa na definição, configurações de problemas e benchmarks; assim, apresentamos uma revisão abrangente da metodologia para detecção de OOD, incluindo a discussão sobre outras tarefas relacionadas para esclarecer sua relação com a detecção de OOD. Por fim, exploramos os avanços na emergente era dos Grandes Modelos de Visão de Linguagem (LVLM), como o GPT-4V. Concluímos esta pesquisa com desafios em aberto e direções futuras.

English

Detecting out-of-distribution (OOD) samples is crucial for ensuring the safety of machine learning systems and has shaped the field of OOD detection. Meanwhile, several other problems are closely related to OOD detection, including anomaly detection (AD), novelty detection (ND), open set recognition (OSR), and outlier detection (OD). To unify these problems, a generalized OOD detection framework was proposed, taxonomically categorizing these five problems. However, Vision Language Models (VLMs) such as CLIP have significantly changed the paradigm and blurred the boundaries between these fields, again confusing researchers. In this survey, we first present a generalized OOD detection v2, encapsulating the evolution of AD, ND, OSR, OOD detection, and OD in the VLM era. Our framework reveals that, with some field inactivity and integration, the demanding challenges have become OOD detection and AD. In addition, we also highlight the significant shift in the definition, problem settings, and benchmarks; we thus feature a comprehensive review of the methodology for OOD detection, including the discussion over other related tasks to clarify their relationship to OOD detection. Finally, we explore the advancements in the emerging Large Vision Language Model (LVLM) era, such as GPT-4V. We conclude this survey with open challenges and future directions.

Detecção Generalizada de Fora da Distribuição e Além na Visão Linguagem Era do Modelo: Uma Pesquisa

Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey

Resumo

Support