Addestramento Consapevole del Rumore per Modelli Linguistici Sensibili al Layout

Abstract

Un documento visivamente ricco (VRD) utilizza caratteristiche visive insieme a segnali linguistici per diffondere informazioni. Addestrare un estrattore personalizzato che identifica entità nominate da un documento richiede un gran numero di istanze del tipo di documento target annotate nelle modalità testuali e visive. Questo rappresenta un collo di bottiglia costoso negli scenari aziendali, in cui si desidera addestrare estrattori personalizzati per migliaia di diversi tipi di documento in modo scalabile. Pre-addestrare un modello estrattore su istanze non etichettate del tipo di documento target, seguito da un passaggio di fine-tuning su istanze etichettate manualmente, non funziona in questi scenari, poiché supera il tempo massimo di addestramento consentito per l'estrattore. Affrontiamo questo scenario proponendo un metodo di addestramento consapevole del rumore, o NAT, in questo articolo. Invece di acquisire documenti etichettati manualmente a costi elevati, NAT utilizza documenti debolmente etichettati per addestrare un estrattore in modo scalabile. Per evitare il degrado della qualità del modello a causa di campioni debolmente etichettati e rumorosi, NAT stima la confidenza di ciascun campione di addestramento e la incorpora come misura di incertezza durante l'addestramento. Addestriamo più modelli estrattori all'avanguardia utilizzando NAT. Esperimenti su numerosi dataset pubblicamente disponibili e interni mostrano che i modelli addestrati con NAT non solo sono robusti in termini di prestazioni – superano una baseline di transfer learning fino al 6% in termini di punteggio macro-F1 – ma sono anche più efficienti nell'uso delle etichette – riducono la quantità di sforzo umano necessario per ottenere prestazioni comparabili fino al 73%.

English

A visually rich document (VRD) utilizes visual features along with linguistic cues to disseminate information. Training a custom extractor that identifies named entities from a document requires a large number of instances of the target document type annotated at textual and visual modalities. This is an expensive bottleneck in enterprise scenarios, where we want to train custom extractors for thousands of different document types in a scalable way. Pre-training an extractor model on unlabeled instances of the target document type, followed by a fine-tuning step on human-labeled instances does not work in these scenarios, as it surpasses the maximum allowable training time allocated for the extractor. We address this scenario by proposing a Noise-Aware Training method or NAT in this paper. Instead of acquiring expensive human-labeled documents, NAT utilizes weakly labeled documents to train an extractor in a scalable way. To avoid degradation in the model's quality due to noisy, weakly labeled samples, NAT estimates the confidence of each training sample and incorporates it as uncertainty measure during training. We train multiple state-of-the-art extractor models using NAT. Experiments on a number of publicly available and in-house datasets show that NAT-trained models are not only robust in performance -- it outperforms a transfer-learning baseline by up to 6% in terms of macro-F1 score, but it is also more label-efficient -- it reduces the amount of human-effort required to obtain comparable performance by up to 73%.

Addestramento Consapevole del Rumore per Modelli Linguistici Sensibili al Layout

Noise-Aware Training of Layout-Aware Language Models

Abstract

Support