ChatPaper.aiChatPaper

Out-of-Distribution-Erkennung mit Aufmerksamkeitskopfmaskierung für multimodale Dokumentenklassifizierung.

Out-of-Distribution Detection with Attention Head Masking for Multimodal Document Classification

August 20, 2024
Autoren: Christos Constantinou, Georgios Ioannides, Aman Chadha, Aaron Elkins, Edwin Simpson
cs.AI

Zusammenfassung

Die Erkennung von Out-of-Distribution (OOD)-Daten ist in Anwendungen des maschinellen Lernens entscheidend, um das Risiko von Modell-Übervertrauen zu verringern und damit die Zuverlässigkeit und Sicherheit der implementierten Systeme zu erhöhen. Die Mehrheit der bestehenden OOD-Erkennungsmethoden behandelt hauptsächlich unimodale Eingaben wie Bilder oder Texte. Im Kontext von multimodalen Dokumenten besteht ein bemerkenswerter Mangel an umfangreichen Forschungsarbeiten zur Leistungsfähigkeit dieser Methoden, die hauptsächlich auf Computer Vision Aufgaben ausgerichtet wurden. Wir schlagen eine neuartige Methodik namens Attention Head Masking (AHM) für multimodale OOD-Aufgaben in Dokumentenklassifikationssystemen vor. Unsere empirischen Ergebnisse zeigen, dass die vorgeschlagene AHM-Methode alle aktuellen State-of-the-Art-Ansätze übertrifft und die Fehlalarmrate im Vergleich zu bestehenden Lösungen um bis zu 7,5\% signifikant verringert. Diese Methodik generalisiert gut auf multimodale Daten wie Dokumente, bei denen visuelle und textuelle Informationen unter derselben Transformer-Architektur modelliert werden. Um dem Mangel an hochwertigen öffentlich verfügbaren Dokumentendatensätzen entgegenzuwirken und weitere Forschung zur OOD-Erkennung für Dokumente zu fördern, stellen wir FinanceDocs vor, einen neuen Dokumenten-KI-Datensatz. Unser Code und Datensatz sind öffentlich verfügbar.
English
Detecting out-of-distribution (OOD) data is crucial in machine learning applications to mitigate the risk of model overconfidence, thereby enhancing the reliability and safety of deployed systems. The majority of existing OOD detection methods predominantly address uni-modal inputs, such as images or texts. In the context of multi-modal documents, there is a notable lack of extensive research on the performance of these methods, which have primarily been developed with a focus on computer vision tasks. We propose a novel methodology termed as attention head masking (AHM) for multi-modal OOD tasks in document classification systems. Our empirical results demonstrate that the proposed AHM method outperforms all state-of-the-art approaches and significantly decreases the false positive rate (FPR) compared to existing solutions up to 7.5\%. This methodology generalizes well to multi-modal data, such as documents, where visual and textual information are modeled under the same Transformer architecture. To address the scarcity of high-quality publicly available document datasets and encourage further research on OOD detection for documents, we introduce FinanceDocs, a new document AI dataset. Our code and dataset are publicly available.

Summary

AI-Generated Summary

PDF64November 16, 2024