Entrenamiento Consciente del Ruido para Modelos de Lenguaje Sensibles al Diseño
Noise-Aware Training of Layout-Aware Language Models
March 30, 2024
Autores: Ritesh Sarkhel, Xiaoqi Ren, Lauro Beltrao Costa, Guolong Su, Vincent Perot, Yanan Xie, Emmanouil Koukoumidis, Arnab Nandi
cs.AI
Resumen
Un documento visualmente rico (VRD, por sus siglas en inglés) utiliza características visuales junto con indicios lingüísticos para diseminar información. Entrenar un extractor personalizado que identifique entidades nombradas en un documento requiere un gran número de instancias del tipo de documento objetivo, anotadas en modalidades textuales y visuales. Esto representa un cuello de botella costoso en escenarios empresariales, donde se desea entrenar extractores personalizados para miles de tipos de documentos diferentes de manera escalable. Pre-entrenar un modelo extractor en instancias no etiquetadas del tipo de documento objetivo, seguido de un paso de ajuste fino en instancias etiquetadas por humanos, no funciona en estos escenarios, ya que supera el tiempo máximo de entrenamiento permitido asignado para el extractor. Abordamos este escenario proponiendo un método de Entrenamiento Consciente del Ruido o NAT (por sus siglas en inglés) en este artículo. En lugar de adquirir documentos costosos etiquetados por humanos, NAT utiliza documentos débilmente etiquetados para entrenar un extractor de manera escalable. Para evitar la degradación en la calidad del modelo debido a muestras ruidosas y débilmente etiquetadas, NAT estima la confianza de cada muestra de entrenamiento y la incorpora como medida de incertidumbre durante el entrenamiento. Entrenamos múltiples modelos extractores de última generación utilizando NAT. Los experimentos en varios conjuntos de datos disponibles públicamente y propios muestran que los modelos entrenados con NAT no solo son robustos en rendimiento —superan una línea base de transferencia de aprendizaje hasta en un 6% en términos de puntuación macro-F1—, sino que también son más eficientes en el uso de etiquetas —reducen la cantidad de esfuerzo humano requerido para obtener un rendimiento comparable hasta en un 73%.
English
A visually rich document (VRD) utilizes visual features along with linguistic
cues to disseminate information. Training a custom extractor that identifies
named entities from a document requires a large number of instances of the
target document type annotated at textual and visual modalities. This is an
expensive bottleneck in enterprise scenarios, where we want to train custom
extractors for thousands of different document types in a scalable way.
Pre-training an extractor model on unlabeled instances of the target document
type, followed by a fine-tuning step on human-labeled instances does not work
in these scenarios, as it surpasses the maximum allowable training time
allocated for the extractor. We address this scenario by proposing a
Noise-Aware Training method or NAT in this paper. Instead of acquiring
expensive human-labeled documents, NAT utilizes weakly labeled documents to
train an extractor in a scalable way. To avoid degradation in the model's
quality due to noisy, weakly labeled samples, NAT estimates the confidence of
each training sample and incorporates it as uncertainty measure during
training. We train multiple state-of-the-art extractor models using NAT.
Experiments on a number of publicly available and in-house datasets show that
NAT-trained models are not only robust in performance -- it outperforms a
transfer-learning baseline by up to 6% in terms of macro-F1 score, but it is
also more label-efficient -- it reduces the amount of human-effort required to
obtain comparable performance by up to 73%.