다중 모달 문서 분류를 위한 주의 헤드 마스킹을 사용한 분포 외 감지
Out-of-Distribution Detection with Attention Head Masking for Multimodal Document Classification
August 20, 2024
저자: Christos Constantinou, Georgios Ioannides, Aman Chadha, Aaron Elkins, Edwin Simpson
cs.AI
초록
기계 학습 응용 프로그램에서는 이상 데이터(out-of-distribution, OOD)를 감지하는 것이 모델의 과신에 따른 위험을 완화하여 배포된 시스템의 신뢰성과 안전성을 향상시키는 데 중요합니다. 기존의 대부분의 OOD 감지 방법은 주로 이미지나 텍스트와 같은 단일 모달 입력에 초점을 맞추고 있습니다. 다중 모달 문서의 경우, 주로 컴퓨터 비전 작업에 초점을 맞추어 개발된 이러한 방법들의 성능에 대한 포괄적인 연구 부족이 두드러집니다. 저희는 문서 분류 시스템의 다중 모달 OOD 작업을 위한 새로운 방법인 주의 헤드 마스킹(attention head masking, AHM) 방법론을 제안합니다. 우리의 경험적 결과는 제안된 AHM 방법이 모든 최첨단 접근 방식을 능가하며 기존 솔루션과 비교하여 거짓 양성률(false positive rate, FPR)을 7.5%까지 크게 감소시킨다는 것을 보여줍니다. 이 방법론은 시각적 및 텍스트 정보가 동일한 Transformer 아키텍처 하에 모델링되는 문서와 같은 다중 모달 데이터에 대해 일반화가 잘 됩니다. 고품질의 공개 문서 데이터셋이 부족한 점을 해결하고 문서에 대한 OOD 감지에 대한 추가 연구를 촉진하기 위해 새로운 문서 AI 데이터셋인 FinanceDocs를 소개합니다. 저희의 코드와 데이터셋은 공개적으로 이용 가능합니다.
English
Detecting out-of-distribution (OOD) data is crucial in machine learning
applications to mitigate the risk of model overconfidence, thereby enhancing
the reliability and safety of deployed systems. The majority of existing OOD
detection methods predominantly address uni-modal inputs, such as images or
texts. In the context of multi-modal documents, there is a notable lack of
extensive research on the performance of these methods, which have primarily
been developed with a focus on computer vision tasks. We propose a novel
methodology termed as attention head masking (AHM) for multi-modal OOD tasks in
document classification systems. Our empirical results demonstrate that the
proposed AHM method outperforms all state-of-the-art approaches and
significantly decreases the false positive rate (FPR) compared to existing
solutions up to 7.5\%. This methodology generalizes well to multi-modal data,
such as documents, where visual and textual information are modeled under the
same Transformer architecture. To address the scarcity of high-quality publicly
available document datasets and encourage further research on OOD detection for
documents, we introduce FinanceDocs, a new document AI dataset. Our code and
dataset are publicly available.Summary
AI-Generated Summary