ChatPaper.aiChatPaper

Generación de Poesía Guiada por Instrucciones en Árabe y sus Dialectos

Instruction-Guided Poetry Generation in Arabic and Its Dialects

April 30, 2026
Autores: Abdelrahman Sadallah, Kareem Elozeiri, Mervat Abassy, Rania Elbadry, Mohamed Anwar, Abed Alhakim Freihat, Preslav Nakov, Fajri Koto
cs.AI

Resumen

La poesía ha sido durante mucho tiempo una forma artística central para los hablantes de árabe, sirviendo como un poderoso medio de expresión e identidad cultural. Si bien los hablantes modernos de árabe continúan valorando la poesía, la investigación existente sobre poesía árabe dentro de los Modelos de Lenguaje a Gran Escala (LLMs) se ha centrado principalmente en tareas de análisis como la interpretación o la predicción de metadatos, por ejemplo, esquemas de rima y títulos. En contraste, nuestro trabajo aborda el aspecto práctico de la creación de poesía en árabe mediante la introducción de capacidades de generación controlable para ayudar a los usuarios a escribir poesía. Específicamente, presentamos un conjunto de datos a gran escala, cuidadosamente seleccionado y basado en instrucciones, en árabe estándar moderno (MSA) y varios dialectos árabes. Este conjunto de datos permite tareas como escribir, revisar y continuar poemas según criterios predefinidos, incluidos el estilo y la rima, así como realizar análisis poético. Nuestros experimentos muestran que el ajuste fino de LLMs en este conjunto de datos produce modelos que pueden generar efectivamente poesía alineada con los requisitos del usuario, según métricas automatizadas y evaluación humana con hablantes nativos de árabe. Los datos y el código están disponibles en https://github.com/mbzuai-nlp/instructpoet-ar.
English
Poetry has long been a central art form for Arabic speakers, serving as a powerful medium of expression and cultural identity. While modern Arabic speakers continue to value poetry, existing research on Arabic poetry within Large Language Models (LLMs) has primarily focused on analysis tasks such as interpretation or metadata prediction, e.g., rhyme schemes and titles. In contrast, our work addresses the practical aspect of poetry creation in Arabic by introducing controllable generation capabilities to assist users in writing poetry. Specifically, we present a large-scale, carefully curated instruction-based dataset in Modern Standard Arabic (MSA) and various Arabic dialects. This dataset enables tasks such as writing, revising, and continuing poems based on predefined criteria, including style and rhyme, as well as performing poetry analysis. Our experiments show that fine-tuning LLMs on this dataset yields models that can effectively generate poetry that is aligned with user requirements, based on both automated metrics and human evaluation with native Arabic speakers. The data and the code are available at https://github.com/mbzuai-nlp/instructpoet-ar
PDF11May 2, 2026