German4All - Набор данных и модель для управляемого упрощением перефразирования на немецком языке
German4All - A Dataset and Model for Readability-Controlled Paraphrasing in German
August 25, 2025
Авторы: Miriam Anschütz, Thanh Mai Pham, Eslam Nasrallah, Maximilian Müller, Cristian-George Craciun, Georg Groh
cs.AI
Аннотация
Способность перефразировать тексты на различных уровнях сложности крайне важна для создания доступных текстов, которые можно адаптировать для различных групп читателей. В связи с этим мы представляем German4All — первый крупномасштабный немецкий набор данных, содержащий выровненные по читаемости парафразы на уровне абзацев. Он охватывает пять уровней читаемости и включает более 25 000 примеров. Набор данных автоматически синтезирован с использованием GPT-4 и тщательно оценен как с помощью экспертов, так и с использованием моделей на основе больших языковых моделей (LLM). На основе German4All мы обучаем открытую модель контролируемого по читаемости перефразирования, которая демонстрирует наилучшие результаты в упрощении немецких текстов, обеспечивая более тонкую и адаптированную под конкретного читателя обработку. Мы открываем доступ как к набору данных, так и к модели, чтобы стимулировать дальнейшие исследования в области многоуровневого перефразирования.
English
The ability to paraphrase texts across different complexity levels is
essential for creating accessible texts that can be tailored toward diverse
reader groups. Thus, we introduce German4All, the first large-scale German
dataset of aligned readability-controlled, paragraph-level paraphrases. It
spans five readability levels and comprises over 25,000 samples. The dataset is
automatically synthesized using GPT-4 and rigorously evaluated through both
human and LLM-based judgments. Using German4All, we train an open-source,
readability-controlled paraphrasing model that achieves state-of-the-art
performance in German text simplification, enabling more nuanced and
reader-specific adaptations. We opensource both the dataset and the model to
encourage further research on multi-level paraphrasing