ChatPaper.aiChatPaper

Out-of-Distribution Detectie met Attention Head Maskering voor Multimodale Documentclassificatie

Out-of-Distribution Detection with Attention Head Masking for Multimodal Document Classification

August 20, 2024
Auteurs: Christos Constantinou, Georgios Ioannides, Aman Chadha, Aaron Elkins, Edwin Simpson
cs.AI

Samenvatting

Het detecteren van out-of-distribution (OOD) data is cruciaal in machine learning-toepassingen om het risico van overmatig vertrouwen van modellen te verminderen, waardoor de betrouwbaarheid en veiligheid van geïmplementeerde systemen wordt verbeterd. De meeste bestaande OOD-detectiemethoden richten zich voornamelijk op uni-modale invoer, zoals afbeeldingen of teksten. In de context van multi-modale documenten is er een opvallend gebrek aan uitgebreid onderzoek naar de prestaties van deze methoden, die voornamelijk zijn ontwikkeld met een focus op computervisietaken. Wij stellen een nieuwe methodologie voor, genaamd attention head masking (AHM), voor multi-modale OOD-taken in documentclassificatiesystemen. Onze empirische resultaten tonen aan dat de voorgestelde AHM-methode alle state-of-the-art benaderingen overtreft en het false positive rate (FPR) aanzienlijk verlaagt in vergelijking met bestaande oplossingen, tot wel 7,5%. Deze methodologie generaliseert goed naar multi-modale data, zoals documenten, waar visuele en tekstuele informatie worden gemodelleerd binnen hetzelfde Transformer-architectuur. Om het gebrek aan hoogwaardige, publiekelijk beschikbare documentdatasets aan te pakken en verder onderzoek naar OOD-detectie voor documenten aan te moedigen, introduceren we FinanceDocs, een nieuwe document AI-dataset. Onze code en dataset zijn publiekelijk beschikbaar.
English
Detecting out-of-distribution (OOD) data is crucial in machine learning applications to mitigate the risk of model overconfidence, thereby enhancing the reliability and safety of deployed systems. The majority of existing OOD detection methods predominantly address uni-modal inputs, such as images or texts. In the context of multi-modal documents, there is a notable lack of extensive research on the performance of these methods, which have primarily been developed with a focus on computer vision tasks. We propose a novel methodology termed as attention head masking (AHM) for multi-modal OOD tasks in document classification systems. Our empirical results demonstrate that the proposed AHM method outperforms all state-of-the-art approaches and significantly decreases the false positive rate (FPR) compared to existing solutions up to 7.5\%. This methodology generalizes well to multi-modal data, such as documents, where visual and textual information are modeled under the same Transformer architecture. To address the scarcity of high-quality publicly available document datasets and encourage further research on OOD detection for documents, we introduce FinanceDocs, a new document AI dataset. Our code and dataset are publicly available.

Summary

AI-Generated Summary

PDF64November 16, 2024