Detección Generalizada de Datos Fuera de Distribución y Más Allá en Visión por Computadora: Una Encuesta en la Era de los Modelos de Lenguaje.
Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey
July 31, 2024
Autores: Atsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Yueqian Lin, Qing Yu, Go Irie, Shafiq Joty, Yixuan Li, Hai Li, Ziwei Liu, Toshihiko Yamasaki, Kiyoharu Aizawa
cs.AI
Resumen
Detectar muestras fuera de distribución (OOD) es crucial para garantizar la seguridad de los sistemas de aprendizaje automático y ha dado forma al campo de la detección de OOD. Mientras tanto, varios otros problemas están estrechamente relacionados con la detección de OOD, incluida la detección de anomalías (AD), la detección de novedades (ND), el reconocimiento de conjuntos abiertos (OSR) y la detección de valores atípicos (OD). Para unificar estos problemas, se propuso un marco generalizado de detección de OOD, categorizando taxonómicamente estos cinco problemas. Sin embargo, los Modelos de Visión y Lenguaje (VLMs) como CLIP han cambiado significativamente el paradigma y han difuminado los límites entre estos campos, confundiendo nuevamente a los investigadores. En esta encuesta, primero presentamos una detección generalizada de OOD v2, encapsulando la evolución de AD, ND, OSR, detección de OOD y OD en la era de los VLM. Nuestro marco revela que, con cierta inactividad e integración en el campo, los desafíos exigentes se han convertido en la detección de OOD y AD. Además, también destacamos el cambio significativo en la definición, configuraciones de problemas y puntos de referencia; por lo tanto, presentamos una revisión exhaustiva de la metodología para la detección de OOD, incluida la discusión sobre otras tareas relacionadas para aclarar su relación con la detección de OOD. Finalmente, exploramos los avances en la emergente era de los Grandes Modelos de Visión y Lenguaje (LVLM), como GPT-4V. Concluimos esta encuesta con desafíos abiertos y futuras direcciones.
English
Detecting out-of-distribution (OOD) samples is crucial for ensuring the
safety of machine learning systems and has shaped the field of OOD detection.
Meanwhile, several other problems are closely related to OOD detection,
including anomaly detection (AD), novelty detection (ND), open set recognition
(OSR), and outlier detection (OD). To unify these problems, a generalized OOD
detection framework was proposed, taxonomically categorizing these five
problems. However, Vision Language Models (VLMs) such as CLIP have
significantly changed the paradigm and blurred the boundaries between these
fields, again confusing researchers. In this survey, we first present a
generalized OOD detection v2, encapsulating the evolution of AD, ND, OSR, OOD
detection, and OD in the VLM era. Our framework reveals that, with some field
inactivity and integration, the demanding challenges have become OOD detection
and AD. In addition, we also highlight the significant shift in the definition,
problem settings, and benchmarks; we thus feature a comprehensive review of the
methodology for OOD detection, including the discussion over other related
tasks to clarify their relationship to OOD detection. Finally, we explore the
advancements in the emerging Large Vision Language Model (LVLM) era, such as
GPT-4V. We conclude this survey with open challenges and future directions.Summary
AI-Generated Summary