ChatPaper.aiChatPaper

Geräuschempfindliches Training von Layout-empfindlichen Sprachmodellen

Noise-Aware Training of Layout-Aware Language Models

March 30, 2024
Autoren: Ritesh Sarkhel, Xiaoqi Ren, Lauro Beltrao Costa, Guolong Su, Vincent Perot, Yanan Xie, Emmanouil Koukoumidis, Arnab Nandi
cs.AI

Zusammenfassung

Ein visuell reiches Dokument (VRD) nutzt visuelle Merkmale zusammen mit sprachlichen Hinweisen, um Informationen zu verbreiten. Das Training eines benutzerdefinierten Extraktors, der benannte Entitäten aus einem Dokument identifiziert, erfordert eine große Anzahl von Instanzen des Ziel-Dokumententyps, die in textuellen und visuellen Modalitäten annotiert sind. Dies stellt einen kostspieligen Engpass in Unternehmensszenarien dar, in denen wir benutzerdefinierte Extraktoren für Tausende verschiedener Dokumententypen auf skalierbare Weise trainieren möchten. Das Vor-Training eines Extraktormodells anhand von unbeschrifteten Instanzen des Ziel-Dokumententyps, gefolgt von einem Feinabstimmungsschritt anhand von menschlich beschrifteten Instanzen, funktioniert in diesen Szenarien nicht, da es die maximal zulässige Trainingszeit überschreitet, die für den Extraktor zugewiesen ist. Wir adressieren dieses Szenario, indem wir in diesem Papier eine Methode des rauschbewussten Trainings oder NAT vorschlagen. Anstatt teure menschlich beschriftete Dokumente zu erwerben, nutzt NAT schwach beschriftete Dokumente, um einen Extraktor auf skalierbare Weise zu trainieren. Um eine Verschlechterung der Modellqualität aufgrund von rauschigen, schwach beschrifteten Proben zu vermeiden, schätzt NAT das Vertrauen jeder Trainingsprobe und integriert es als Unsicherheitsmaß während des Trainings. Wir trainieren mehrere hochmoderne Extraktormodelle unter Verwendung von NAT. Experimente an einer Reihe von öffentlich verfügbaren und firmeninternen Datensätzen zeigen, dass mit NAT trainierte Modelle nicht nur leistungsstark sind - sie übertreffen eine Transfer-Learning-Baseline um bis zu 6% in Bezug auf den Makro-F1-Score - sondern auch effizienter im Umgang mit Beschriftungen sind - sie reduzieren den menschlichen Aufwand zur Erzielung vergleichbarer Leistungen um bis zu 73%.
English
A visually rich document (VRD) utilizes visual features along with linguistic cues to disseminate information. Training a custom extractor that identifies named entities from a document requires a large number of instances of the target document type annotated at textual and visual modalities. This is an expensive bottleneck in enterprise scenarios, where we want to train custom extractors for thousands of different document types in a scalable way. Pre-training an extractor model on unlabeled instances of the target document type, followed by a fine-tuning step on human-labeled instances does not work in these scenarios, as it surpasses the maximum allowable training time allocated for the extractor. We address this scenario by proposing a Noise-Aware Training method or NAT in this paper. Instead of acquiring expensive human-labeled documents, NAT utilizes weakly labeled documents to train an extractor in a scalable way. To avoid degradation in the model's quality due to noisy, weakly labeled samples, NAT estimates the confidence of each training sample and incorporates it as uncertainty measure during training. We train multiple state-of-the-art extractor models using NAT. Experiments on a number of publicly available and in-house datasets show that NAT-trained models are not only robust in performance -- it outperforms a transfer-learning baseline by up to 6% in terms of macro-F1 score, but it is also more label-efficient -- it reduces the amount of human-effort required to obtain comparable performance by up to 73%.

Summary

AI-Generated Summary

PDF101November 26, 2024