L'ensemble de données MERIT : Modélisation et Rendu Efficace de Transcriptions Interprétables
The MERIT Dataset: Modelling and Efficiently Rendering Interpretable Transcripts
August 31, 2024
Auteurs: I. de Rodrigo, A. Sanchez-Cuadrado, J. Boal, A. J. Lopez-Lopez
cs.AI
Résumé
Cet article présente le jeu de données MERIT, un jeu de données multimodal (texte + image + mise en page) entièrement étiqueté dans le contexte des rapports scolaires. Composé de plus de 400 étiquettes et 33 000 échantillons, le jeu de données MERIT est une ressource précieuse pour l'entraînement de modèles dans des tâches exigeantes de compréhension de documents riches en visuels (VrDU). Par sa nature (rapports de notes d'élèves), le jeu de données MERIT peut potentiellement inclure des biais de manière contrôlée, en faisant un outil précieux pour évaluer les biais induits dans les Modèles de Langage (LLMs). L'article décrit le processus de génération du jeu de données et met en avant ses principales caractéristiques dans les domaines textuel, visuel, de la mise en page et des biais. Pour démontrer l'utilité du jeu de données, nous présentons une évaluation avec des modèles de classification de jetons, montrant que le jeu de données représente un défi significatif même pour les modèles de pointe et que ces derniers bénéficieraient grandement de l'inclusion d'échantillons du jeu de données MERIT dans leur phase de pré-entraînement.
English
This paper introduces the MERIT Dataset, a multimodal (text + image + layout)
fully labeled dataset within the context of school reports. Comprising over 400
labels and 33k samples, the MERIT Dataset is a valuable resource for training
models in demanding Visually-rich Document Understanding (VrDU) tasks. By its
nature (student grade reports), the MERIT Dataset can potentially include
biases in a controlled way, making it a valuable tool to benchmark biases
induced in Language Models (LLMs). The paper outlines the dataset's generation
pipeline and highlights its main features in the textual, visual, layout, and
bias domains. To demonstrate the dataset's utility, we present a benchmark with
token classification models, showing that the dataset poses a significant
challenge even for SOTA models and that these would greatly benefit from
including samples from the MERIT Dataset in their pretraining phase.Summary
AI-Generated Summary