Het MERIT-dataset: Modellering en efficiënt renderen van interpreteerbare transcripties

Samenvatting

Dit artikel introduceert de MERIT Dataset, een multimodale (tekst + afbeelding + lay-out) volledig gelabelde dataset binnen de context van schoolrapporten. Met meer dan 400 labels en 33k samples is de MERIT Dataset een waardevolle bron voor het trainen van modellen voor veeleisende taken in Visueel-rijke Documentbegrip (VrDU). Door zijn aard (rapportcijfers van leerlingen) kan de MERIT Dataset op een gecontroleerde manier potentiële biases bevatten, waardoor het een waardevol hulpmiddel is om biases in Taalmodellen (LLMs) te benchmarken. Het artikel beschrijft de generatiepipeline van de dataset en benadrukt de belangrijkste kenmerken op het gebied van tekst, visuele elementen, lay-out en biases. Om de bruikbaarheid van de dataset aan te tonen, presenteren we een benchmark met tokenclassificatiemodellen, waaruit blijkt dat de dataset een aanzienlijke uitdaging vormt, zelfs voor state-of-the-art modellen, en dat deze modellen sterk zouden profiteren van het opnemen van samples uit de MERIT Dataset in hun voorafgaande trainingsfase.

English

This paper introduces the MERIT Dataset, a multimodal (text + image + layout) fully labeled dataset within the context of school reports. Comprising over 400 labels and 33k samples, the MERIT Dataset is a valuable resource for training models in demanding Visually-rich Document Understanding (VrDU) tasks. By its nature (student grade reports), the MERIT Dataset can potentially include biases in a controlled way, making it a valuable tool to benchmark biases induced in Language Models (LLMs). The paper outlines the dataset's generation pipeline and highlights its main features in the textual, visual, layout, and bias domains. To demonstrate the dataset's utility, we present a benchmark with token classification models, showing that the dataset poses a significant challenge even for SOTA models and that these would greatly benefit from including samples from the MERIT Dataset in their pretraining phase.

Het MERIT-dataset: Modellering en efficiënt renderen van interpreteerbare transcripties

The MERIT Dataset: Modelling and Efficiently Rendering Interpretable Transcripts

Samenvatting

Summary

Support

Support