ChatPaper.aiChatPaper

マルチモーダル文書分類のためのアテンションヘッドマスキングによる外部分布検出

Out-of-Distribution Detection with Attention Head Masking for Multimodal Document Classification

August 20, 2024
著者: Christos Constantinou, Georgios Ioannides, Aman Chadha, Aaron Elkins, Edwin Simpson
cs.AI

要旨

機械学習アプリケーションにおいて、外部分布(OOD)データの検出は、モデルの過信を軽減し、展開されたシステムの信頼性と安全性を向上させるために重要です。既存の大部分のOOD検出手法は、主に画像やテキストなどの単一モーダル入力に対処しています。マルチモーダルドキュメントの文脈では、コンピュータビジョンタスクに焦点を当てて開発されたこれらの手法の性能に関する包括的な研究が著しく不足しています。私たちは、文書分類システムにおけるマルチモーダルOODタスク向けの新しい手法であるAttention Head Masking(AHM)を提案します。私たちの実験結果は、提案されたAHM手法がすべての最先端手法を上回り、既存のソリューションと比較して偽陽性率(FPR)を7.5%まで大幅に低下させることを示しています。この手法は、視覚的およびテキスト情報が同じTransformerアーキテクチャの下でモデル化される文書などのマルチモーダルデータにもうまく一般化します。高品質な公開文書データセットの不足に対処し、文書のOOD検出に関するさらなる研究を促進するために、新しい文書AIデータセットであるFinanceDocsを紹介します。私たちのコードとデータセットは公開されています。
English
Detecting out-of-distribution (OOD) data is crucial in machine learning applications to mitigate the risk of model overconfidence, thereby enhancing the reliability and safety of deployed systems. The majority of existing OOD detection methods predominantly address uni-modal inputs, such as images or texts. In the context of multi-modal documents, there is a notable lack of extensive research on the performance of these methods, which have primarily been developed with a focus on computer vision tasks. We propose a novel methodology termed as attention head masking (AHM) for multi-modal OOD tasks in document classification systems. Our empirical results demonstrate that the proposed AHM method outperforms all state-of-the-art approaches and significantly decreases the false positive rate (FPR) compared to existing solutions up to 7.5\%. This methodology generalizes well to multi-modal data, such as documents, where visual and textual information are modeled under the same Transformer architecture. To address the scarcity of high-quality publicly available document datasets and encourage further research on OOD detection for documents, we introduce FinanceDocs, a new document AI dataset. Our code and dataset are publicly available.

Summary

AI-Generated Summary

PDF64November 16, 2024