ChatPaper.aiChatPaper

Treinamento Consciente de Ruído para Modelos de Linguagem Sensíveis ao Layout

Noise-Aware Training of Layout-Aware Language Models

March 30, 2024
Autores: Ritesh Sarkhel, Xiaoqi Ren, Lauro Beltrao Costa, Guolong Su, Vincent Perot, Yanan Xie, Emmanouil Koukoumidis, Arnab Nandi
cs.AI

Resumo

Um documento visualmente rico (VRD) utiliza características visuais juntamente com pistas linguísticas para disseminar informações. Treinar um extrator personalizado que identifica entidades nomeadas a partir de um documento requer um grande número de instâncias do tipo de documento alvo anotadas nas modalidades textual e visual. Isso representa um gargalo caro em cenários empresariais, onde desejamos treinar extratores personalizados para milhares de diferentes tipos de documentos de forma escalável. Pré-treinar um modelo extrator em instâncias não rotuladas do tipo de documento alvo, seguido por uma etapa de ajuste fino em instâncias rotuladas por humanos, não funciona nesses cenários, pois excede o tempo máximo de treinamento permitido alocado para o extrator. Abordamos esse cenário propondo um método de Treinamento Consciente de Ruído, ou NAT, neste artigo. Em vez de adquirir documentos caros rotulados por humanos, o NAT utiliza documentos fracamente rotulados para treinar um extrator de forma escalável. Para evitar a degradação na qualidade do modelo devido a amostras ruidosas e fracamente rotuladas, o NAT estima a confiança de cada amostra de treinamento e a incorpora como medida de incerteza durante o treinamento. Treinamos vários modelos extrator de última geração usando o NAT. Experimentos em diversos conjuntos de dados disponíveis publicamente e internos mostram que os modelos treinados com NAT não apenas são robustos em desempenho — superando uma linha de base de transferência de aprendizado em até 6% em termos de pontuação macro-F1 — mas também são mais eficientes em termos de rótulos — reduzindo a quantidade de esforço humano necessário para obter desempenho comparável em até 73%.
English
A visually rich document (VRD) utilizes visual features along with linguistic cues to disseminate information. Training a custom extractor that identifies named entities from a document requires a large number of instances of the target document type annotated at textual and visual modalities. This is an expensive bottleneck in enterprise scenarios, where we want to train custom extractors for thousands of different document types in a scalable way. Pre-training an extractor model on unlabeled instances of the target document type, followed by a fine-tuning step on human-labeled instances does not work in these scenarios, as it surpasses the maximum allowable training time allocated for the extractor. We address this scenario by proposing a Noise-Aware Training method or NAT in this paper. Instead of acquiring expensive human-labeled documents, NAT utilizes weakly labeled documents to train an extractor in a scalable way. To avoid degradation in the model's quality due to noisy, weakly labeled samples, NAT estimates the confidence of each training sample and incorporates it as uncertainty measure during training. We train multiple state-of-the-art extractor models using NAT. Experiments on a number of publicly available and in-house datasets show that NAT-trained models are not only robust in performance -- it outperforms a transfer-learning baseline by up to 6% in terms of macro-F1 score, but it is also more label-efficient -- it reduces the amount of human-effort required to obtain comparable performance by up to 73%.
PDF101February 8, 2026