ChatPaper.aiChatPaper

Geluidsbewuste training van lay-outbewuste taalmodelen

Noise-Aware Training of Layout-Aware Language Models

March 30, 2024
Auteurs: Ritesh Sarkhel, Xiaoqi Ren, Lauro Beltrao Costa, Guolong Su, Vincent Perot, Yanan Xie, Emmanouil Koukoumidis, Arnab Nandi
cs.AI

Samenvatting

Een visueel rijke document (VRD) maakt gebruik van visuele kenmerken samen met linguïstische signalen om informatie te verspreiden. Het trainen van een aangepaste extractor die benoemde entiteiten uit een document identificeert, vereist een groot aantal exemplaren van het doeltype document dat geannoteerd is op tekstuele en visuele modaliteiten. Dit vormt een kostbaar knelpunt in bedrijfsscenario's, waar we aangepaste extractors willen trainen voor duizenden verschillende documenttypen op een schaalbare manier. Het vooraf trainen van een extractormodel op niet-gelabelde exemplaren van het doeltype document, gevolgd door een fine-tuning stap op door mensen gelabelde exemplaren, werkt niet in deze scenario's, omdat het de maximale toegestane trainingstijd voor de extractor overschrijdt. Wij pakken dit scenario aan door een Noise-Aware Training methode, oftewel NAT, voor te stellen in dit artikel. In plaats van dure door mensen gelabelde documenten te verkrijgen, maakt NAT gebruik van zwak gelabelde documenten om een extractor op een schaalbare manier te trainen. Om verslechtering van de kwaliteit van het model te voorkomen door ruis in zwak gelabelde voorbeelden, schat NAT het vertrouwen van elk trainingsvoorbeeld in en neemt dit op als onzekerheidsmaat tijdens de training. We trainen meerdere state-of-the-art extractormodellen met behulp van NAT. Experimenten op een aantal publiekelijk beschikbare en interne datasets tonen aan dat NAT-getrainde modellen niet alleen robuust zijn in prestaties – het overtreft een transfer-learning baseline met tot 6% in termen van macro-F1 score, maar het is ook label-efficiënter – het vermindert de hoeveelheid menselijke inspanning die nodig is om vergelijkbare prestaties te behalen met tot 73%.
English
A visually rich document (VRD) utilizes visual features along with linguistic cues to disseminate information. Training a custom extractor that identifies named entities from a document requires a large number of instances of the target document type annotated at textual and visual modalities. This is an expensive bottleneck in enterprise scenarios, where we want to train custom extractors for thousands of different document types in a scalable way. Pre-training an extractor model on unlabeled instances of the target document type, followed by a fine-tuning step on human-labeled instances does not work in these scenarios, as it surpasses the maximum allowable training time allocated for the extractor. We address this scenario by proposing a Noise-Aware Training method or NAT in this paper. Instead of acquiring expensive human-labeled documents, NAT utilizes weakly labeled documents to train an extractor in a scalable way. To avoid degradation in the model's quality due to noisy, weakly labeled samples, NAT estimates the confidence of each training sample and incorporates it as uncertainty measure during training. We train multiple state-of-the-art extractor models using NAT. Experiments on a number of publicly available and in-house datasets show that NAT-trained models are not only robust in performance -- it outperforms a transfer-learning baseline by up to 6% in terms of macro-F1 score, but it is also more label-efficient -- it reduces the amount of human-effort required to obtain comparable performance by up to 73%.
PDF101February 8, 2026