German4All: Un conjunto de datos y modelo para la paráfrasis controlada por legibilidad en alemán
German4All - A Dataset and Model for Readability-Controlled Paraphrasing in German
August 25, 2025
Autores: Miriam Anschütz, Thanh Mai Pham, Eslam Nasrallah, Maximilian Müller, Cristian-George Craciun, Georg Groh
cs.AI
Resumen
La capacidad de parafrasear textos en diferentes niveles de complejidad es esencial para crear textos accesibles que puedan adaptarse a diversos grupos de lectores. Por ello, presentamos German4All, el primer conjunto de datos a gran escala en alemán de paráfrasis alineadas y controladas por legibilidad a nivel de párrafo. Abarca cinco niveles de legibilidad y comprende más de 25,000 muestras. El conjunto de datos se sintetiza automáticamente utilizando GPT-4 y se evalúa rigurosamente mediante juicios tanto humanos como basados en modelos de lenguaje (LLM). Utilizando German4All, entrenamos un modelo de paráfrasis controlado por legibilidad de código abierto que logra un rendimiento de vanguardia en la simplificación de textos en alemán, permitiendo adaptaciones más matizadas y específicas para el lector. Publicamos tanto el conjunto de datos como el modelo para fomentar más investigaciones sobre la paráfrasis multinivel.
English
The ability to paraphrase texts across different complexity levels is
essential for creating accessible texts that can be tailored toward diverse
reader groups. Thus, we introduce German4All, the first large-scale German
dataset of aligned readability-controlled, paragraph-level paraphrases. It
spans five readability levels and comprises over 25,000 samples. The dataset is
automatically synthesized using GPT-4 and rigorously evaluated through both
human and LLM-based judgments. Using German4All, we train an open-source,
readability-controlled paraphrasing model that achieves state-of-the-art
performance in German text simplification, enabling more nuanced and
reader-specific adaptations. We opensource both the dataset and the model to
encourage further research on multi-level paraphrasing