Détection hors distribution avec masquage de l'attention pour la classification multimodale de documents
Out-of-Distribution Detection with Attention Head Masking for Multimodal Document Classification
August 20, 2024
Auteurs: Christos Constantinou, Georgios Ioannides, Aman Chadha, Aaron Elkins, Edwin Simpson
cs.AI
Résumé
La détection des données hors distribution (OOD) est cruciale dans les applications d'apprentissage automatique pour atténuer le risque de surconfiance du modèle, améliorant ainsi la fiabilité et la sécurité des systèmes déployés. La majorité des méthodes de détection OOD existantes traitent principalement des entrées unimodales, telles que les images ou les textes. Dans le contexte des documents multimodaux, il existe un manque notable de recherche approfondie sur les performances de ces méthodes, qui ont principalement été développées en se concentrant sur les tâches de vision par ordinateur. Nous proposons une méthodologie novatrice appelée masquage de tête d'attention (AHM) pour les tâches OOD multimodales dans les systèmes de classification de documents. Nos résultats empiriques démontrent que la méthode AHM proposée surpasse toutes les approches de pointe et réduit significativement le taux de faux positifs (FPR) par rapport aux solutions existantes jusqu'à 7,5\%. Cette méthodologie se généralise bien aux données multimodales, telles que les documents, où les informations visuelles et textuelles sont modélisées sous la même architecture Transformer. Pour pallier le manque de jeux de données de documents de haute qualité disponibles publiquement et encourager davantage la recherche sur la détection OOD pour les documents, nous introduisons FinanceDocs, un nouveau jeu de données d'IA documentaire. Notre code et notre jeu de données sont disponibles publiquement.
English
Detecting out-of-distribution (OOD) data is crucial in machine learning
applications to mitigate the risk of model overconfidence, thereby enhancing
the reliability and safety of deployed systems. The majority of existing OOD
detection methods predominantly address uni-modal inputs, such as images or
texts. In the context of multi-modal documents, there is a notable lack of
extensive research on the performance of these methods, which have primarily
been developed with a focus on computer vision tasks. We propose a novel
methodology termed as attention head masking (AHM) for multi-modal OOD tasks in
document classification systems. Our empirical results demonstrate that the
proposed AHM method outperforms all state-of-the-art approaches and
significantly decreases the false positive rate (FPR) compared to existing
solutions up to 7.5\%. This methodology generalizes well to multi-modal data,
such as documents, where visual and textual information are modeled under the
same Transformer architecture. To address the scarcity of high-quality publicly
available document datasets and encourage further research on OOD detection for
documents, we introduce FinanceDocs, a new document AI dataset. Our code and
dataset are publicly available.Summary
AI-Generated Summary