ChatPaper.aiChatPaper

Detecção Generalizada de Fora da Distribuição e Além na Visão Linguagem Era do Modelo: Uma Pesquisa

Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey

July 31, 2024
Autores: Atsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Yueqian Lin, Qing Yu, Go Irie, Shafiq Joty, Yixuan Li, Hai Li, Ziwei Liu, Toshihiko Yamasaki, Kiyoharu Aizawa
cs.AI

Resumo

Detectar amostras fora da distribuição (OOD) é crucial para garantir a segurança dos sistemas de aprendizado de máquina e moldou o campo da detecção de OOD. Enquanto isso, vários outros problemas estão intimamente relacionados à detecção de OOD, incluindo detecção de anomalias (AD), detecção de novidades (ND), reconhecimento de conjunto aberto (OSR) e detecção de outliers (OD). Para unificar esses problemas, um framework generalizado de detecção de OOD foi proposto, categorizando taxonomicamente esses cinco problemas. No entanto, Modelos de Visão de Linguagem (VLMs) como o CLIP mudaram significativamente o paradigma e borraram as fronteiras entre esses campos, confundindo novamente os pesquisadores. Nesta pesquisa, apresentamos primeiro uma detecção generalizada de OOD v2, encapsulando a evolução de AD, ND, OSR, detecção de OOD e OD na era dos VLMs. Nosso framework revela que, com alguma inatividade e integração de campo, os desafios exigentes se tornaram detecção de OOD e AD. Além disso, destacamos também a mudança significativa na definição, configurações de problemas e benchmarks; assim, apresentamos uma revisão abrangente da metodologia para detecção de OOD, incluindo a discussão sobre outras tarefas relacionadas para esclarecer sua relação com a detecção de OOD. Por fim, exploramos os avanços na emergente era dos Grandes Modelos de Visão de Linguagem (LVLM), como o GPT-4V. Concluímos esta pesquisa com desafios em aberto e direções futuras.
English
Detecting out-of-distribution (OOD) samples is crucial for ensuring the safety of machine learning systems and has shaped the field of OOD detection. Meanwhile, several other problems are closely related to OOD detection, including anomaly detection (AD), novelty detection (ND), open set recognition (OSR), and outlier detection (OD). To unify these problems, a generalized OOD detection framework was proposed, taxonomically categorizing these five problems. However, Vision Language Models (VLMs) such as CLIP have significantly changed the paradigm and blurred the boundaries between these fields, again confusing researchers. In this survey, we first present a generalized OOD detection v2, encapsulating the evolution of AD, ND, OSR, OOD detection, and OD in the VLM era. Our framework reveals that, with some field inactivity and integration, the demanding challenges have become OOD detection and AD. In addition, we also highlight the significant shift in the definition, problem settings, and benchmarks; we thus feature a comprehensive review of the methodology for OOD detection, including the discussion over other related tasks to clarify their relationship to OOD detection. Finally, we explore the advancements in the emerging Large Vision Language Model (LVLM) era, such as GPT-4V. We conclude this survey with open challenges and future directions.

Summary

AI-Generated Summary

PDF62November 28, 2024