German4All – Ein Datensatz und Modell für lesbarkeitsgesteuerte Paraphrasierung im Deutschen

Zusammenfassung

Die Fähigkeit, Texte auf verschiedenen Komplexitätsstufen zu paraphrasieren, ist entscheidend für die Erstellung zugänglicher Texte, die auf unterschiedliche Lesergruppen abgestimmt werden können. Daher stellen wir German4All vor, den ersten umfangreichen deutschen Datensatz mit ausgerichteten, lesbarkeitskontrollierten Paraphrasen auf Absatzebene. Der Datensatz umfasst fünf Lesbarkeitsstufen und besteht aus über 25.000 Beispielen. Er wird automatisch mit GPT-4 synthetisiert und sowohl durch menschliche als auch durch LLM-basierte Bewertungen rigoros evaluiert. Mit German4All trainieren wir ein quelloffenes, lesbarkeitskontrolliertes Paraphrasierungsmodell, das Spitzenleistungen in der deutschen Textvereinfachung erzielt und somit feinere und leserspezifische Anpassungen ermöglicht. Sowohl der Datensatz als auch das Modell werden als Open Source veröffentlicht, um weitere Forschung im Bereich der mehrstufigen Paraphrasierung zu fördern.

English

The ability to paraphrase texts across different complexity levels is essential for creating accessible texts that can be tailored toward diverse reader groups. Thus, we introduce German4All, the first large-scale German dataset of aligned readability-controlled, paragraph-level paraphrases. It spans five readability levels and comprises over 25,000 samples. The dataset is automatically synthesized using GPT-4 and rigorously evaluated through both human and LLM-based judgments. Using German4All, we train an open-source, readability-controlled paraphrasing model that achieves state-of-the-art performance in German text simplification, enabling more nuanced and reader-specific adaptations. We opensource both the dataset and the model to encourage further research on multi-level paraphrasing