ChatPaper.aiChatPaper

Entraînement tenant compte du bruit pour les modèles de langage sensibles à la mise en page

Noise-Aware Training of Layout-Aware Language Models

March 30, 2024
Auteurs: Ritesh Sarkhel, Xiaoqi Ren, Lauro Beltrao Costa, Guolong Su, Vincent Perot, Yanan Xie, Emmanouil Koukoumidis, Arnab Nandi
cs.AI

Résumé

Un document visuellement riche (VRD) utilise des caractéristiques visuelles ainsi que des indices linguistiques pour diffuser des informations. L'entraînement d'un extracteur personnalisé qui identifie des entités nommées dans un document nécessite un grand nombre d'instances du type de document cible annotées à la fois dans les modalités textuelles et visuelles. Cela constitue un goulot d'étranglement coûteux dans les scénarios d'entreprise, où nous souhaitons entraîner des extracteurs personnalisés pour des milliers de types de documents différents de manière scalable. Pré-entraîner un modèle d'extraction sur des instances non annotées du type de document cible, suivi d'une étape de fine-tuning sur des instances annotées manuellement, ne fonctionne pas dans ces scénarios, car cela dépasse le temps d'entraînement maximal autorisé alloué pour l'extracteur. Nous abordons ce scénario en proposant une méthode d'entraînement consciente du bruit, ou NAT, dans cet article. Au lieu d'acquérir des documents annotés manuellement coûteux, NAT utilise des documents faiblement annotés pour entraîner un extracteur de manière scalable. Pour éviter une dégradation de la qualité du modèle due à des échantillons faiblement annotés et bruyants, NAT estime la confiance de chaque échantillon d'entraînement et l'intègre comme mesure d'incertitude pendant l'entraînement. Nous entraînons plusieurs modèles d'extraction de pointe en utilisant NAT. Les expériences sur un certain nombre de jeux de données publics et internes montrent que les modèles entraînés avec NAT sont non seulement robustes en termes de performance — ils surpassent une base de référence de transfer learning jusqu'à 6 % en termes de score macro-F1 — mais ils sont également plus efficaces en termes d'annotation — ils réduisent jusqu'à 73 % l'effort humain nécessaire pour obtenir des performances comparables.
English
A visually rich document (VRD) utilizes visual features along with linguistic cues to disseminate information. Training a custom extractor that identifies named entities from a document requires a large number of instances of the target document type annotated at textual and visual modalities. This is an expensive bottleneck in enterprise scenarios, where we want to train custom extractors for thousands of different document types in a scalable way. Pre-training an extractor model on unlabeled instances of the target document type, followed by a fine-tuning step on human-labeled instances does not work in these scenarios, as it surpasses the maximum allowable training time allocated for the extractor. We address this scenario by proposing a Noise-Aware Training method or NAT in this paper. Instead of acquiring expensive human-labeled documents, NAT utilizes weakly labeled documents to train an extractor in a scalable way. To avoid degradation in the model's quality due to noisy, weakly labeled samples, NAT estimates the confidence of each training sample and incorporates it as uncertainty measure during training. We train multiple state-of-the-art extractor models using NAT. Experiments on a number of publicly available and in-house datasets show that NAT-trained models are not only robust in performance -- it outperforms a transfer-learning baseline by up to 6% in terms of macro-F1 score, but it is also more label-efficient -- it reduces the amount of human-effort required to obtain comparable performance by up to 73%.

Summary

AI-Generated Summary

PDF101November 26, 2024