Detección de Fuera de Distribución con Enmascaramiento de Cabeza de Atención para la Clasificación de Documentos Multimodales
Out-of-Distribution Detection with Attention Head Masking for Multimodal Document Classification
August 20, 2024
Autores: Christos Constantinou, Georgios Ioannides, Aman Chadha, Aaron Elkins, Edwin Simpson
cs.AI
Resumen
Detectar datos fuera de distribución (OOD) es crucial en aplicaciones de aprendizaje automático para mitigar el riesgo de sobreconfianza del modelo, mejorando así la fiabilidad y seguridad de los sistemas implementados. La mayoría de los métodos existentes de detección de OOD abordan predominantemente entradas unimodales, como imágenes o textos. En el contexto de documentos multimodales, existe una notable falta de investigación extensiva sobre el rendimiento de estos métodos, que han sido desarrollados principalmente con un enfoque en tareas de visión por computadora. Proponemos una metodología novedosa denominada enmascaramiento de cabezales de atención (AHM) para tareas OOD multimodales en sistemas de clasificación de documentos. Nuestros resultados empíricos demuestran que el método AHM propuesto supera a todos los enfoques de vanguardia y disminuye significativamente la tasa de falsos positivos (FPR) en comparación con las soluciones existentes hasta un 7.5\%. Esta metodología generaliza bien a datos multimodales, como documentos, donde la información visual y textual se modela bajo la misma arquitectura Transformer. Para abordar la escasez de conjuntos de datos de documentos públicamente disponibles de alta calidad y fomentar una mayor investigación sobre la detección de OOD para documentos, presentamos FinanceDocs, un nuevo conjunto de datos de IA para documentos. Nuestro código y conjunto de datos están disponibles públicamente.
English
Detecting out-of-distribution (OOD) data is crucial in machine learning
applications to mitigate the risk of model overconfidence, thereby enhancing
the reliability and safety of deployed systems. The majority of existing OOD
detection methods predominantly address uni-modal inputs, such as images or
texts. In the context of multi-modal documents, there is a notable lack of
extensive research on the performance of these methods, which have primarily
been developed with a focus on computer vision tasks. We propose a novel
methodology termed as attention head masking (AHM) for multi-modal OOD tasks in
document classification systems. Our empirical results demonstrate that the
proposed AHM method outperforms all state-of-the-art approaches and
significantly decreases the false positive rate (FPR) compared to existing
solutions up to 7.5\%. This methodology generalizes well to multi-modal data,
such as documents, where visual and textual information are modeled under the
same Transformer architecture. To address the scarcity of high-quality publicly
available document datasets and encourage further research on OOD detection for
documents, we introduce FinanceDocs, a new document AI dataset. Our code and
dataset are publicly available.Summary
AI-Generated Summary