German4All - ドイツ語における読みやすさ制御パラフレージングのためのデータセットとモデル
German4All - A Dataset and Model for Readability-Controlled Paraphrasing in German
August 25, 2025
著者: Miriam Anschütz, Thanh Mai Pham, Eslam Nasrallah, Maximilian Müller, Cristian-George Craciun, Georg Groh
cs.AI
要旨
異なる複雑さのレベルにわたってテキストを言い換える能力は、多様な読者層に向けてカスタマイズ可能なアクセシブルなテキストを作成するために不可欠です。そこで、我々はGerman4Allを紹介します。これは、ドイツ語における初の大規模な、読みやすさを制御した段落レベルの言い換えデータセットです。5つの読みやすさレベルにまたがり、25,000以上のサンプルを含んでいます。このデータセットはGPT-4を用いて自動的に合成され、人間とLLMベースの評価を通じて厳密に検証されています。German4Allを使用して、我々はオープンソースの読みやすさ制御言い換えモデルを訓練し、ドイツ語テキスト簡略化において最先端の性能を達成しました。これにより、よりニュアンスのある読者固有の適応が可能になります。我々は、データセットとモデルの両方をオープンソース化し、多レベル言い換えに関するさらなる研究を促進します。
English
The ability to paraphrase texts across different complexity levels is
essential for creating accessible texts that can be tailored toward diverse
reader groups. Thus, we introduce German4All, the first large-scale German
dataset of aligned readability-controlled, paragraph-level paraphrases. It
spans five readability levels and comprises over 25,000 samples. The dataset is
automatically synthesized using GPT-4 and rigorously evaluated through both
human and LLM-based judgments. Using German4All, we train an open-source,
readability-controlled paraphrasing model that achieves state-of-the-art
performance in German text simplification, enabling more nuanced and
reader-specific adaptations. We opensource both the dataset and the model to
encourage further research on multi-level paraphrasing