Détection hors distribution avec masquage de l'attention pour la classification multimodale de documents

papers.abstract

La détection des données hors distribution (OOD) est cruciale dans les applications d'apprentissage automatique pour atténuer le risque de surconfiance du modèle, améliorant ainsi la fiabilité et la sécurité des systèmes déployés. La majorité des méthodes de détection OOD existantes traitent principalement des entrées unimodales, telles que les images ou les textes. Dans le contexte des documents multimodaux, il existe un manque notable de recherche approfondie sur les performances de ces méthodes, qui ont principalement été développées en se concentrant sur les tâches de vision par ordinateur. Nous proposons une méthodologie novatrice appelée masquage de tête d'attention (AHM) pour les tâches OOD multimodales dans les systèmes de classification de documents. Nos résultats empiriques démontrent que la méthode AHM proposée surpasse toutes les approches de pointe et réduit significativement le taux de faux positifs (FPR) par rapport aux solutions existantes jusqu'à 7,5\%. Cette méthodologie se généralise bien aux données multimodales, telles que les documents, où les informations visuelles et textuelles sont modélisées sous la même architecture Transformer. Pour pallier le manque de jeux de données de documents de haute qualité disponibles publiquement et encourager davantage la recherche sur la détection OOD pour les documents, nous introduisons FinanceDocs, un nouveau jeu de données d'IA documentaire. Notre code et notre jeu de données sont disponibles publiquement.

English

Detecting out-of-distribution (OOD) data is crucial in machine learning applications to mitigate the risk of model overconfidence, thereby enhancing the reliability and safety of deployed systems. The majority of existing OOD detection methods predominantly address uni-modal inputs, such as images or texts. In the context of multi-modal documents, there is a notable lack of extensive research on the performance of these methods, which have primarily been developed with a focus on computer vision tasks. We propose a novel methodology termed as attention head masking (AHM) for multi-modal OOD tasks in document classification systems. Our empirical results demonstrate that the proposed AHM method outperforms all state-of-the-art approaches and significantly decreases the false positive rate (FPR) compared to existing solutions up to 7.5\%. This methodology generalizes well to multi-modal data, such as documents, where visual and textual information are modeled under the same Transformer architecture. To address the scarcity of high-quality publicly available document datasets and encourage further research on OOD detection for documents, we introduce FinanceDocs, a new document AI dataset. Our code and dataset are publicly available.

Détection hors distribution avec masquage de l'attention pour la classification multimodale de documents

Out-of-Distribution Detection with Attention Head Masking for Multimodal Document Classification

papers.abstract

Support