ChatPaper.aiChatPaper

다중 모달 문서 분류를 위한 주의 헤드 마스킹을 사용한 분포 외 감지

Out-of-Distribution Detection with Attention Head Masking for Multimodal Document Classification

August 20, 2024
저자: Christos Constantinou, Georgios Ioannides, Aman Chadha, Aaron Elkins, Edwin Simpson
cs.AI

초록

기계 학습 응용 프로그램에서는 이상 데이터(out-of-distribution, OOD)를 감지하는 것이 모델의 과신에 따른 위험을 완화하여 배포된 시스템의 신뢰성과 안전성을 향상시키는 데 중요합니다. 기존의 대부분의 OOD 감지 방법은 주로 이미지나 텍스트와 같은 단일 모달 입력에 초점을 맞추고 있습니다. 다중 모달 문서의 경우, 주로 컴퓨터 비전 작업에 초점을 맞추어 개발된 이러한 방법들의 성능에 대한 포괄적인 연구 부족이 두드러집니다. 저희는 문서 분류 시스템의 다중 모달 OOD 작업을 위한 새로운 방법인 주의 헤드 마스킹(attention head masking, AHM) 방법론을 제안합니다. 우리의 경험적 결과는 제안된 AHM 방법이 모든 최첨단 접근 방식을 능가하며 기존 솔루션과 비교하여 거짓 양성률(false positive rate, FPR)을 7.5%까지 크게 감소시킨다는 것을 보여줍니다. 이 방법론은 시각적 및 텍스트 정보가 동일한 Transformer 아키텍처 하에 모델링되는 문서와 같은 다중 모달 데이터에 대해 일반화가 잘 됩니다. 고품질의 공개 문서 데이터셋이 부족한 점을 해결하고 문서에 대한 OOD 감지에 대한 추가 연구를 촉진하기 위해 새로운 문서 AI 데이터셋인 FinanceDocs를 소개합니다. 저희의 코드와 데이터셋은 공개적으로 이용 가능합니다.
English
Detecting out-of-distribution (OOD) data is crucial in machine learning applications to mitigate the risk of model overconfidence, thereby enhancing the reliability and safety of deployed systems. The majority of existing OOD detection methods predominantly address uni-modal inputs, such as images or texts. In the context of multi-modal documents, there is a notable lack of extensive research on the performance of these methods, which have primarily been developed with a focus on computer vision tasks. We propose a novel methodology termed as attention head masking (AHM) for multi-modal OOD tasks in document classification systems. Our empirical results demonstrate that the proposed AHM method outperforms all state-of-the-art approaches and significantly decreases the false positive rate (FPR) compared to existing solutions up to 7.5\%. This methodology generalizes well to multi-modal data, such as documents, where visual and textual information are modeled under the same Transformer architecture. To address the scarcity of high-quality publicly available document datasets and encourage further research on OOD detection for documents, we introduce FinanceDocs, a new document AI dataset. Our code and dataset are publicly available.

Summary

AI-Generated Summary

PDF64November 16, 2024