Het MERIT-dataset: Modellering en efficiënt renderen van interpreteerbare transcripties
The MERIT Dataset: Modelling and Efficiently Rendering Interpretable Transcripts
August 31, 2024
Auteurs: I. de Rodrigo, A. Sanchez-Cuadrado, J. Boal, A. J. Lopez-Lopez
cs.AI
Samenvatting
Dit artikel introduceert de MERIT Dataset, een multimodale (tekst + afbeelding + lay-out) volledig gelabelde dataset binnen de context van schoolrapporten. Met meer dan 400 labels en 33k samples is de MERIT Dataset een waardevolle bron voor het trainen van modellen voor veeleisende taken in Visueel-rijke Documentbegrip (VrDU). Door zijn aard (rapportcijfers van leerlingen) kan de MERIT Dataset op een gecontroleerde manier potentiële biases bevatten, waardoor het een waardevol hulpmiddel is om biases in Taalmodellen (LLMs) te benchmarken. Het artikel beschrijft de generatiepipeline van de dataset en benadrukt de belangrijkste kenmerken op het gebied van tekst, visuele elementen, lay-out en biases. Om de bruikbaarheid van de dataset aan te tonen, presenteren we een benchmark met tokenclassificatiemodellen, waaruit blijkt dat de dataset een aanzienlijke uitdaging vormt, zelfs voor state-of-the-art modellen, en dat deze modellen sterk zouden profiteren van het opnemen van samples uit de MERIT Dataset in hun voorafgaande trainingsfase.
English
This paper introduces the MERIT Dataset, a multimodal (text + image + layout)
fully labeled dataset within the context of school reports. Comprising over 400
labels and 33k samples, the MERIT Dataset is a valuable resource for training
models in demanding Visually-rich Document Understanding (VrDU) tasks. By its
nature (student grade reports), the MERIT Dataset can potentially include
biases in a controlled way, making it a valuable tool to benchmark biases
induced in Language Models (LLMs). The paper outlines the dataset's generation
pipeline and highlights its main features in the textual, visual, layout, and
bias domains. To demonstrate the dataset's utility, we present a benchmark with
token classification models, showing that the dataset poses a significant
challenge even for SOTA models and that these would greatly benefit from
including samples from the MERIT Dataset in their pretraining phase.Summary
AI-Generated Summary