ChatPaper.aiChatPaper

German4All - Un Dataset e un Modello per la Parafrasi Controllata in Base alla Leggibilità in Tedesco

German4All - A Dataset and Model for Readability-Controlled Paraphrasing in German

August 25, 2025
Autori: Miriam Anschütz, Thanh Mai Pham, Eslam Nasrallah, Maximilian Müller, Cristian-George Craciun, Georg Groh
cs.AI

Abstract

La capacità di parafrasare testi attraverso diversi livelli di complessità è essenziale per creare testi accessibili che possano essere adattati a gruppi di lettori diversi. Pertanto, introduciamo German4All, il primo dataset su larga scala in tedesco di parafrasi allineate a livello di paragrafo e controllate per la leggibilità. Esso copre cinque livelli di leggibilità e comprende oltre 25.000 campioni. Il dataset è sintetizzato automaticamente utilizzando GPT-4 e valutato rigorosamente attraverso giudizi sia umani che basati su modelli linguistici di grandi dimensioni (LLM). Utilizzando German4All, addestriamo un modello open-source di parafrasi controllata per la leggibilità che raggiunge prestazioni all'avanguardia nella semplificazione di testi in tedesco, consentendo adattamenti più sfumati e specifici per il lettore. Rendiamo disponibili sia il dataset che il modello per incoraggiare ulteriori ricerche sulla parafrasi multi-livello.
English
The ability to paraphrase texts across different complexity levels is essential for creating accessible texts that can be tailored toward diverse reader groups. Thus, we introduce German4All, the first large-scale German dataset of aligned readability-controlled, paragraph-level paraphrases. It spans five readability levels and comprises over 25,000 samples. The dataset is automatically synthesized using GPT-4 and rigorously evaluated through both human and LLM-based judgments. Using German4All, we train an open-source, readability-controlled paraphrasing model that achieves state-of-the-art performance in German text simplification, enabling more nuanced and reader-specific adaptations. We opensource both the dataset and the model to encourage further research on multi-level paraphrasing
PDF15August 26, 2025