ChatPaper.aiChatPaper

Обнаружение внедоменных данных с маскированием внимания для мультимодальной классификации документов

Out-of-Distribution Detection with Attention Head Masking for Multimodal Document Classification

August 20, 2024
Авторы: Christos Constantinou, Georgios Ioannides, Aman Chadha, Aaron Elkins, Edwin Simpson
cs.AI

Аннотация

Обнаружение данных вне диапазона (OOD) является важным в машинном обучении для смягчения риска чрезмерной уверенности модели, тем самым повышая надежность и безопасность развернутых систем. Большинство существующих методов обнаружения OOD в основном рассматривают уни-модальные входные данные, такие как изображения или тексты. В контексте мульти-модальных документов заметен недостаток обширных исследований по производительности этих методов, которые в основном были разработаны с упором на задачи компьютерного зрения. Мы предлагаем новую методологию, названную маскированием внимания головы (AHM) для мульти-модальных OOD задач в системах классификации документов. Наши эмпирические результаты демонстрируют, что предложенный метод AHM превосходит все существующие подходы и значительно снижает уровень ложноположительных срабатываний (FPR) по сравнению с существующими решениями до 7.5\%. Эта методология хорошо обобщается на мульти-модальные данные, такие как документы, где визуальная и текстовая информация моделируются в рамках одной и той же архитектуры Трансформера. Для решения проблемы недостатка качественных общедоступных наборов данных документов и поощрения дальнейших исследований по обнаружению OOD для документов мы представляем FinanceDocs, новый набор данных по искусственному интеллекту для документов. Наш код и набор данных общедоступны.
English
Detecting out-of-distribution (OOD) data is crucial in machine learning applications to mitigate the risk of model overconfidence, thereby enhancing the reliability and safety of deployed systems. The majority of existing OOD detection methods predominantly address uni-modal inputs, such as images or texts. In the context of multi-modal documents, there is a notable lack of extensive research on the performance of these methods, which have primarily been developed with a focus on computer vision tasks. We propose a novel methodology termed as attention head masking (AHM) for multi-modal OOD tasks in document classification systems. Our empirical results demonstrate that the proposed AHM method outperforms all state-of-the-art approaches and significantly decreases the false positive rate (FPR) compared to existing solutions up to 7.5\%. This methodology generalizes well to multi-modal data, such as documents, where visual and textual information are modeled under the same Transformer architecture. To address the scarcity of high-quality publicly available document datasets and encourage further research on OOD detection for documents, we introduce FinanceDocs, a new document AI dataset. Our code and dataset are publicly available.

Summary

AI-Generated Summary

PDF64November 16, 2024