레이아웃 인식 언어 모델의 노이즈 인식 학습
Noise-Aware Training of Layout-Aware Language Models
March 30, 2024
저자: Ritesh Sarkhel, Xiaoqi Ren, Lauro Beltrao Costa, Guolong Su, Vincent Perot, Yanan Xie, Emmanouil Koukoumidis, Arnab Nandi
cs.AI
초록
시각적으로 풍부한 문서(VRD)는 시각적 특징과 언어적 단서를 함께 활용하여 정보를 전달합니다. 문서에서 명명된 개체를 식별하는 맞춤형 추출기를 훈련시키기 위해서는 해당 문서 유형의 다량의 인스턴스가 텍스트 및 시각적 양식으로 주석 처리되어 있어야 합니다. 이는 기업 시나리오에서 비용이 많이 드는 병목 현상으로, 수천 가지의 다양한 문서 유형에 대해 확장 가능한 방식으로 맞춤형 추출기를 훈련시키고자 할 때 특히 문제가 됩니다. 대상 문서 유형의 레이블이 없는 인스턴스로 추출기 모델을 사전 훈련한 후, 인간이 레이블을 단 인스턴스로 미세 조정하는 방식은 이러한 시나리오에서 작동하지 않는데, 이는 추출기에 할당된 최대 허용 훈련 시간을 초과하기 때문입니다. 본 논문에서는 이러한 시나리오를 해결하기 위해 Noise-Aware Training(NAT) 방법을 제안합니다. NAT는 비용이 많이 드는 인간이 레이블을 단 문서를 획득하는 대신, 약하게 레이블이 달린 문서를 활용하여 확장 가능한 방식으로 추출기를 훈련시킵니다. 노이즈가 있는 약한 레이블 샘플로 인해 모델의 품질이 저하되는 것을 방지하기 위해, NAT는 각 훈련 샘플의 신뢰도를 추정하고 이를 훈련 중 불확실성 측정치로 통합합니다. 우리는 NAT를 사용하여 여러 최신 추출기 모델을 훈련시켰습니다. 공개된 데이터셋과 내부 데이터셋에 대한 실험 결과, NAT로 훈련된 모델은 성능 면에서 강력할 뿐만 아니라(매크로 F1 점수 기준 전이 학습 베이스라인을 최대 6%까지 능가), 레이블 효율성도 더 높았습니다(비슷한 성능을 얻기 위해 필요한 인간의 노력을 최대 73%까지 줄임).
English
A visually rich document (VRD) utilizes visual features along with linguistic
cues to disseminate information. Training a custom extractor that identifies
named entities from a document requires a large number of instances of the
target document type annotated at textual and visual modalities. This is an
expensive bottleneck in enterprise scenarios, where we want to train custom
extractors for thousands of different document types in a scalable way.
Pre-training an extractor model on unlabeled instances of the target document
type, followed by a fine-tuning step on human-labeled instances does not work
in these scenarios, as it surpasses the maximum allowable training time
allocated for the extractor. We address this scenario by proposing a
Noise-Aware Training method or NAT in this paper. Instead of acquiring
expensive human-labeled documents, NAT utilizes weakly labeled documents to
train an extractor in a scalable way. To avoid degradation in the model's
quality due to noisy, weakly labeled samples, NAT estimates the confidence of
each training sample and incorporates it as uncertainty measure during
training. We train multiple state-of-the-art extractor models using NAT.
Experiments on a number of publicly available and in-house datasets show that
NAT-trained models are not only robust in performance -- it outperforms a
transfer-learning baseline by up to 6% in terms of macro-F1 score, but it is
also more label-efficient -- it reduces the amount of human-effort required to
obtain comparable performance by up to 73%.Summary
AI-Generated Summary