Op instructies gebaseerde poëziegeneratie in het Arabisch en zijn dialecten
Instruction-Guided Poetry Generation in Arabic and Its Dialects
April 30, 2026
Auteurs: Abdelrahman Sadallah, Kareem Elozeiri, Mervat Abassy, Rania Elbadry, Mohamed Anwar, Abed Alhakim Freihat, Preslav Nakov, Fajri Koto
cs.AI
Samenvatting
Poëzie is lange tijd een centrale kunstvorm voor Arabischtaligen geweest, en dient als een krachtig medium voor expressie en culturele identiteit. Hoewel moderne Arabischtaligen poëzie blijven waarderen, richt bestaand onderzoek naar Arabische poëzie binnen Large Language Models (LLM's) zich voornamelijk op analysetaken zoals interpretatie of het voorspellen van metadata, bijvoorbeeld rijmschema's en titels. Daarentegen richt ons werk zich op het praktische aspect van het creëren van poëzie in het Arabisch door het introduceren van controleerbare generatiemogelijkheden om gebruikers te helpen bij het schrijven van poëzie. Specifiek presenteren we een grootschalige, zorgvuldig samengestelde, op instructies gebaseerde dataset in Modern Standaardarabisch (MSA) en verschillende Arabische dialecten. Deze dataset maakt taken mogelijk zoals het schrijven, reviseren en vervolgen van gedichten op basis van vooraf gedefinieerde criteria, waaronder stijl en rijm, evenals het uitvoeren van poëzieanalyse. Onze experimenten tonen aan dat het finetunen van LLM's op deze dataset modellen oplevert die effectief poëzie kunnen genereren die voldoet aan gebruikersvereisten, gebaseerd op zowel geautomatiseerde metrieken als humane evaluatie door moedertaalsprekers van het Arabisch. De data en de code zijn beschikbaar op https://github.com/mbzuai-nlp/instructpoet-ar.
English
Poetry has long been a central art form for Arabic speakers, serving as a powerful medium of expression and cultural identity. While modern Arabic speakers continue to value poetry, existing research on Arabic poetry within Large Language Models (LLMs) has primarily focused on analysis tasks such as interpretation or metadata prediction, e.g., rhyme schemes and titles. In contrast, our work addresses the practical aspect of poetry creation in Arabic by introducing controllable generation capabilities to assist users in writing poetry. Specifically, we present a large-scale, carefully curated instruction-based dataset in Modern Standard Arabic (MSA) and various Arabic dialects. This dataset enables tasks such as writing, revising, and continuing poems based on predefined criteria, including style and rhyme, as well as performing poetry analysis. Our experiments show that fine-tuning LLMs on this dataset yields models that can effectively generate poetry that is aligned with user requirements, based on both automated metrics and human evaluation with native Arabic speakers. The data and the code are available at https://github.com/mbzuai-nlp/instructpoet-ar