German4All - Un ensemble de données et un modèle pour le paraphrase contrôlé par la lisibilité en allemand
German4All - A Dataset and Model for Readability-Controlled Paraphrasing in German
August 25, 2025
papers.authors: Miriam Anschütz, Thanh Mai Pham, Eslam Nasrallah, Maximilian Müller, Cristian-George Craciun, Georg Groh
cs.AI
papers.abstract
La capacité à paraphraser des textes à différents niveaux de complexité est essentielle pour créer des textes accessibles pouvant être adaptés à divers groupes de lecteurs. Ainsi, nous présentons German4All, le premier jeu de données allemand à grande échelle de paraphrases alignées et contrôlées en termes de lisibilité au niveau du paragraphe. Il couvre cinq niveaux de lisibilité et comprend plus de 25 000 échantillons. Le jeu de données est synthétisé automatiquement à l'aide de GPT-4 et rigoureusement évalué à la fois par des jugements humains et basés sur des modèles de langage (LLM). En utilisant German4All, nous entraînons un modèle de paraphrase open source contrôlé en termes de lisibilité, qui atteint des performances de pointe en simplification de texte en allemand, permettant des adaptations plus nuancées et spécifiques aux lecteurs. Nous rendons publics à la fois le jeu de données et le modèle pour encourager des recherches supplémentaires sur la paraphrase multi-niveaux.
English
The ability to paraphrase texts across different complexity levels is
essential for creating accessible texts that can be tailored toward diverse
reader groups. Thus, we introduce German4All, the first large-scale German
dataset of aligned readability-controlled, paragraph-level paraphrases. It
spans five readability levels and comprises over 25,000 samples. The dataset is
automatically synthesized using GPT-4 and rigorously evaluated through both
human and LLM-based judgments. Using German4All, we train an open-source,
readability-controlled paraphrasing model that achieves state-of-the-art
performance in German text simplification, enabling more nuanced and
reader-specific adaptations. We opensource both the dataset and the model to
encourage further research on multi-level paraphrasing