ChatPaper.aiChatPaper

Rilevamento Fuori Distribuzione con Mascheramento delle Teste di Attenzione per la Classificazione Multimodale di Documenti

Out-of-Distribution Detection with Attention Head Masking for Multimodal Document Classification

August 20, 2024
Autori: Christos Constantinou, Georgios Ioannides, Aman Chadha, Aaron Elkins, Edwin Simpson
cs.AI

Abstract

Il rilevamento di dati fuori distribuzione (OOD) è cruciale nelle applicazioni di machine learning per mitigare il rischio di eccessiva sicurezza del modello, migliorando così l'affidabilità e la sicurezza dei sistemi implementati. La maggior parte dei metodi esistenti per il rilevamento OOD si concentra principalmente su input uni-modali, come immagini o testi. Nel contesto di documenti multi-modali, si osserva una notevole carenza di ricerche approfondite sulle prestazioni di questi metodi, che sono stati principalmente sviluppati con un focus su compiti di visione artificiale. Proponiamo una nuova metodologia denominata mascheramento delle testine di attenzione (Attention Head Masking, AHM) per compiti OOD multi-modali nei sistemi di classificazione di documenti. I nostri risultati empirici dimostrano che il metodo AHM proposto supera tutti gli approcci all'avanguardia e riduce significativamente il tasso di falsi positivi (FPR) rispetto alle soluzioni esistenti fino al 7,5%. Questa metodologia si generalizza bene ai dati multi-modali, come i documenti, in cui le informazioni visive e testuali sono modellate all'interno della stessa architettura Transformer. Per affrontare la scarsità di dataset di documenti di alta qualità disponibili pubblicamente e incoraggiare ulteriori ricerche sul rilevamento OOD per i documenti, introduciamo FinanceDocs, un nuovo dataset di documenti per l'AI. Il nostro codice e il dataset sono disponibili pubblicamente.
English
Detecting out-of-distribution (OOD) data is crucial in machine learning applications to mitigate the risk of model overconfidence, thereby enhancing the reliability and safety of deployed systems. The majority of existing OOD detection methods predominantly address uni-modal inputs, such as images or texts. In the context of multi-modal documents, there is a notable lack of extensive research on the performance of these methods, which have primarily been developed with a focus on computer vision tasks. We propose a novel methodology termed as attention head masking (AHM) for multi-modal OOD tasks in document classification systems. Our empirical results demonstrate that the proposed AHM method outperforms all state-of-the-art approaches and significantly decreases the false positive rate (FPR) compared to existing solutions up to 7.5\%. This methodology generalizes well to multi-modal data, such as documents, where visual and textual information are modeled under the same Transformer architecture. To address the scarcity of high-quality publicly available document datasets and encourage further research on OOD detection for documents, we introduce FinanceDocs, a new document AI dataset. Our code and dataset are publicly available.
PDF64November 16, 2024