ChatPaper.aiChatPaper

Detecção de Fora da Distribuição com Máscara de Cabeçalho de Atenção para Classificação de Documentos Multimodais

Out-of-Distribution Detection with Attention Head Masking for Multimodal Document Classification

August 20, 2024
Autores: Christos Constantinou, Georgios Ioannides, Aman Chadha, Aaron Elkins, Edwin Simpson
cs.AI

Resumo

Detectar dados fora da distribuição (OOD) é crucial em aplicações de aprendizado de máquina para mitigar o risco de excesso de confiança do modelo, aumentando assim a confiabilidade e segurança dos sistemas implantados. A maioria dos métodos existentes de detecção de OOD aborda predominantemente entradas unimodais, como imagens ou textos. No contexto de documentos multimodais, há uma notável falta de pesquisa extensiva sobre o desempenho desses métodos, que foram desenvolvidos principalmente com foco em tarefas de visão computacional. Propomos uma metodologia inovadora denominada máscara de cabeçalho de atenção (AHM) para tarefas OOD multimodais em sistemas de classificação de documentos. Nossos resultados empíricos demonstram que o método AHM proposto supera todas as abordagens de ponta e diminui significativamente a taxa de falsos positivos (FPR) em comparação com as soluções existentes em até 7,5\%. Esta metodologia generaliza bem para dados multimodais, como documentos, nos quais informações visuais e textuais são modeladas sob a mesma arquitetura Transformer. Para lidar com a escassez de conjuntos de dados de documentos publicamente disponíveis de alta qualidade e incentivar pesquisas adicionais sobre detecção de OOD para documentos, apresentamos o FinanceDocs, um novo conjunto de dados de IA para documentos. Nosso código e conjunto de dados estão publicamente disponíveis.
English
Detecting out-of-distribution (OOD) data is crucial in machine learning applications to mitigate the risk of model overconfidence, thereby enhancing the reliability and safety of deployed systems. The majority of existing OOD detection methods predominantly address uni-modal inputs, such as images or texts. In the context of multi-modal documents, there is a notable lack of extensive research on the performance of these methods, which have primarily been developed with a focus on computer vision tasks. We propose a novel methodology termed as attention head masking (AHM) for multi-modal OOD tasks in document classification systems. Our empirical results demonstrate that the proposed AHM method outperforms all state-of-the-art approaches and significantly decreases the false positive rate (FPR) compared to existing solutions up to 7.5\%. This methodology generalizes well to multi-modal data, such as documents, where visual and textual information are modeled under the same Transformer architecture. To address the scarcity of high-quality publicly available document datasets and encourage further research on OOD detection for documents, we introduce FinanceDocs, a new document AI dataset. Our code and dataset are publicly available.

Summary

AI-Generated Summary

PDF64November 16, 2024