ChatPaper.aiChatPaper

German4All - Um Conjunto de Dados e Modelo para Paráfrase Controlada por Legibilidade em Alemão

German4All - A Dataset and Model for Readability-Controlled Paraphrasing in German

August 25, 2025
Autores: Miriam Anschütz, Thanh Mai Pham, Eslam Nasrallah, Maximilian Müller, Cristian-George Craciun, Georg Groh
cs.AI

Resumo

A capacidade de parafrasear textos em diferentes níveis de complexidade é essencial para criar textos acessíveis que possam ser adaptados a diversos grupos de leitores. Assim, apresentamos o German4All, o primeiro conjunto de dados em larga escala em alemão de paráfrases alinhadas e controladas por legibilidade em nível de parágrafo. Ele abrange cinco níveis de legibilidade e compreende mais de 25.000 amostras. O conjunto de dados é sintetizado automaticamente usando o GPT-4 e rigorosamente avaliado por meio de julgamentos humanos e baseados em LLMs. Utilizando o German4All, treinamos um modelo de paráfrase controlado por legibilidade de código aberto que alcança desempenho de ponta em simplificação de textos em alemão, permitindo adaptações mais refinadas e específicas para o leitor. Disponibilizamos tanto o conjunto de dados quanto o modelo em código aberto para incentivar mais pesquisas sobre paráfrases em múltiplos níveis.
English
The ability to paraphrase texts across different complexity levels is essential for creating accessible texts that can be tailored toward diverse reader groups. Thus, we introduce German4All, the first large-scale German dataset of aligned readability-controlled, paragraph-level paraphrases. It spans five readability levels and comprises over 25,000 samples. The dataset is automatically synthesized using GPT-4 and rigorously evaluated through both human and LLM-based judgments. Using German4All, we train an open-source, readability-controlled paraphrasing model that achieves state-of-the-art performance in German text simplification, enabling more nuanced and reader-specific adaptations. We opensource both the dataset and the model to encourage further research on multi-level paraphrasing
PDF15August 26, 2025