L'ensemble de données MERIT : Modélisation et Rendu Efficace de Transcriptions Interprétables

Résumé

Cet article présente le jeu de données MERIT, un jeu de données multimodal (texte + image + mise en page) entièrement étiqueté dans le contexte des rapports scolaires. Composé de plus de 400 étiquettes et 33 000 échantillons, le jeu de données MERIT est une ressource précieuse pour l'entraînement de modèles dans des tâches exigeantes de compréhension de documents riches en visuels (VrDU). Par sa nature (rapports de notes d'élèves), le jeu de données MERIT peut potentiellement inclure des biais de manière contrôlée, en faisant un outil précieux pour évaluer les biais induits dans les Modèles de Langage (LLMs). L'article décrit le processus de génération du jeu de données et met en avant ses principales caractéristiques dans les domaines textuel, visuel, de la mise en page et des biais. Pour démontrer l'utilité du jeu de données, nous présentons une évaluation avec des modèles de classification de jetons, montrant que le jeu de données représente un défi significatif même pour les modèles de pointe et que ces derniers bénéficieraient grandement de l'inclusion d'échantillons du jeu de données MERIT dans leur phase de pré-entraînement.

English

This paper introduces the MERIT Dataset, a multimodal (text + image + layout) fully labeled dataset within the context of school reports. Comprising over 400 labels and 33k samples, the MERIT Dataset is a valuable resource for training models in demanding Visually-rich Document Understanding (VrDU) tasks. By its nature (student grade reports), the MERIT Dataset can potentially include biases in a controlled way, making it a valuable tool to benchmark biases induced in Language Models (LLMs). The paper outlines the dataset's generation pipeline and highlights its main features in the textual, visual, layout, and bias domains. To demonstrate the dataset's utility, we present a benchmark with token classification models, showing that the dataset poses a significant challenge even for SOTA models and that these would greatly benefit from including samples from the MERIT Dataset in their pretraining phase.

L'ensemble de données MERIT : Modélisation et Rendu Efficace de Transcriptions Interprétables

The MERIT Dataset: Modelling and Efficiently Rendering Interpretable Transcripts

Résumé

Support