ChatPaper.aiChatPaper

Geração de Poesia Orientada por Instruções em Árabe e Seus Dialetos

Instruction-Guided Poetry Generation in Arabic and Its Dialects

April 30, 2026
Autores: Abdelrahman Sadallah, Kareem Elozeiri, Mervat Abassy, Rania Elbadry, Mohamed Anwar, Abed Alhakim Freihat, Preslav Nakov, Fajri Koto
cs.AI

Resumo

A poesia sempre foi uma forma de arte central para os falantes de árabe, servindo como um poderoso meio de expressão e identidade cultural. Embora os falantes modernos de árabe continuem a valorizar a poesia, a investigação existente sobre poesia árabe no contexto dos Grandes Modelos de Linguagem (LLMs) tem-se focado principalmente em tarefas de análise, como interpretação ou previsão de metadados, por exemplo, esquemas de rima e títulos. Em contraste, o nosso trabalho aborda o aspeto prático da criação de poesia em árabe, introduzindo capacidades de geração controlável para auxiliar os utilizadores a escrever poesia. Especificamente, apresentamos um conjunto de dados de grande escala, cuidadosamente curado e baseado em instruções, em Árabe Padrão Moderno (MSA) e vários dialetos árabes. Este conjunto de dados permite tarefas como escrever, rever e continuar poemas com base em critérios predefinidos, incluindo estilo e rima, bem como realizar análise poética. As nossas experiências mostram que o ajuste fino de LLMs neste conjunto de dados produz modelos que podem gerar poesia eficazmente alinhada com os requisitos do utilizador, com base tanto em métricas automatizadas como em avaliação humana com falantes nativos de árabe. Os dados e o código estão disponíveis em https://github.com/mbzuai-nlp/instructpoet-ar.
English
Poetry has long been a central art form for Arabic speakers, serving as a powerful medium of expression and cultural identity. While modern Arabic speakers continue to value poetry, existing research on Arabic poetry within Large Language Models (LLMs) has primarily focused on analysis tasks such as interpretation or metadata prediction, e.g., rhyme schemes and titles. In contrast, our work addresses the practical aspect of poetry creation in Arabic by introducing controllable generation capabilities to assist users in writing poetry. Specifically, we present a large-scale, carefully curated instruction-based dataset in Modern Standard Arabic (MSA) and various Arabic dialects. This dataset enables tasks such as writing, revising, and continuing poems based on predefined criteria, including style and rhyme, as well as performing poetry analysis. Our experiments show that fine-tuning LLMs on this dataset yields models that can effectively generate poetry that is aligned with user requirements, based on both automated metrics and human evaluation with native Arabic speakers. The data and the code are available at https://github.com/mbzuai-nlp/instructpoet-ar
PDF11May 2, 2026