ChatPaper.aiChatPaper

German4All - Een dataset en model voor leesbaarheidsgestuurde parafrasering in het Duits

German4All - A Dataset and Model for Readability-Controlled Paraphrasing in German

August 25, 2025
Auteurs: Miriam Anschütz, Thanh Mai Pham, Eslam Nasrallah, Maximilian Müller, Cristian-George Craciun, Georg Groh
cs.AI

Samenvatting

Het vermogen om teksten op verschillende complexiteitsniveaus te parafraseren is essentieel voor het creëren van toegankelijke teksten die kunnen worden afgestemd op diverse lezersgroepen. Daarom introduceren we German4All, de eerste grootschalige Duitse dataset van uitgelijnde, leesbaarheidsgecontroleerde, paragraafniveau parafrases. De dataset beslaat vijf leesbaarheidsniveaus en omvat meer dan 25.000 voorbeelden. De dataset is automatisch gesynthetiseerd met behulp van GPT-4 en grondig geëvalueerd door zowel menselijke als LLM-gebaseerde beoordelingen. Met German4All trainen we een open-source, leesbaarheidsgecontroleerd parafrasemodel dat state-of-the-art prestaties behaalt in Duitse tekstvereenvoudiging, waardoor meer genuanceerde en lezerspecifieke aanpassingen mogelijk worden. We maken zowel de dataset als het model openbaar om verder onderzoek naar multi-level parafraseren te stimuleren.
English
The ability to paraphrase texts across different complexity levels is essential for creating accessible texts that can be tailored toward diverse reader groups. Thus, we introduce German4All, the first large-scale German dataset of aligned readability-controlled, paragraph-level paraphrases. It spans five readability levels and comprises over 25,000 samples. The dataset is automatically synthesized using GPT-4 and rigorously evaluated through both human and LLM-based judgments. Using German4All, we train an open-source, readability-controlled paraphrasing model that achieves state-of-the-art performance in German text simplification, enabling more nuanced and reader-specific adaptations. We opensource both the dataset and the model to encourage further research on multi-level paraphrasing
PDF15August 26, 2025