ChatPaper.aiChatPaper

Обучение моделей языка, учитывающих структуру макета, с учетом шума

Noise-Aware Training of Layout-Aware Language Models

March 30, 2024
Авторы: Ritesh Sarkhel, Xiaoqi Ren, Lauro Beltrao Costa, Guolong Su, Vincent Perot, Yanan Xie, Emmanouil Koukoumidis, Arnab Nandi
cs.AI

Аннотация

Документ с богатым визуальным содержанием (VRD) использует визуальные особенности в сочетании с лингвистическими подсказками для распространения информации. Обучение пользовательского извлекателя, который идентифицирует именованные сущности в документе, требует большого количества экземпляров целевого типа документа, размеченных в текстовой и визуальной модальностях. Это дорогостоящее узкое место в корпоративных сценариях, где мы хотим обучать пользовательские извлекатели для тысяч различных типов документов масштабируемым способом. Предварительное обучение модели извлекателя на неразмеченных экземплярах целевого типа документа, за которым следует этап донастройки на размеченных человеком экземплярах, не работает в этих сценариях, так как превышает максимально допустимое время обучения, выделенное для извлекателя. Мы решаем этот сценарий, предлагая в данной статье метод обучения, чувствительный к шуму, или NAT. Вместо приобретения дорогостоящих документов, размеченных людьми, NAT использует слабо размеченные документы для обучения извлекателя масштабируемым способом. Чтобы избежать деградации качества модели из-за шумных, слабо размеченных образцов, NAT оценивает уверенность каждого обучающего образца и включает ее в качестве меры неопределенности во время обучения. Мы обучаем несколько современных моделей извлекателей с использованием NAT. Эксперименты на ряде общедоступных и корпоративных наборов данных показывают, что модели, обученные с помощью NAT, не только устойчивы в производительности - превосходят базовую модель обучения передачи до 6% по макро-F1 показателю, но и более эффективны в использовании меток - сокращают количество усилий человека, необходимых для достижения сопоставимой производительности до 73%.
English
A visually rich document (VRD) utilizes visual features along with linguistic cues to disseminate information. Training a custom extractor that identifies named entities from a document requires a large number of instances of the target document type annotated at textual and visual modalities. This is an expensive bottleneck in enterprise scenarios, where we want to train custom extractors for thousands of different document types in a scalable way. Pre-training an extractor model on unlabeled instances of the target document type, followed by a fine-tuning step on human-labeled instances does not work in these scenarios, as it surpasses the maximum allowable training time allocated for the extractor. We address this scenario by proposing a Noise-Aware Training method or NAT in this paper. Instead of acquiring expensive human-labeled documents, NAT utilizes weakly labeled documents to train an extractor in a scalable way. To avoid degradation in the model's quality due to noisy, weakly labeled samples, NAT estimates the confidence of each training sample and incorporates it as uncertainty measure during training. We train multiple state-of-the-art extractor models using NAT. Experiments on a number of publicly available and in-house datasets show that NAT-trained models are not only robust in performance -- it outperforms a transfer-learning baseline by up to 6% in terms of macro-F1 score, but it is also more label-efficient -- it reduces the amount of human-effort required to obtain comparable performance by up to 73%.

Summary

AI-Generated Summary

PDF101November 26, 2024