Anleitung-gesteuerte Gedichtgenerierung auf Arabisch und seinen Dialekten
Instruction-Guided Poetry Generation in Arabic and Its Dialects
April 30, 2026
Autoren: Abdelrahman Sadallah, Kareem Elozeiri, Mervat Abassy, Rania Elbadry, Mohamed Anwar, Abed Alhakim Freihat, Preslav Nakov, Fajri Koto
cs.AI
Zusammenfassung
Dichtung stellt seit langem eine zentrale Kunstform für arabischsprachige Gemeinschaften dar und dient als kraftvolles Ausdrucksmittel und kulturelles Identitätsmerkmal. Während moderne Arabischsprechende die Dichtung nach wie vor schätzen, konzentriert sich die bestehende Forschung zu arabischer Poesie im Bereich großer Sprachmodelle (LLMs) hauptsächlich auf Analyseverfahren wie Interpretation oder die Vorhersage von Metadaten, beispielsweise Reimschemata und Titeln. Im Gegensatz dazu behandelt unsere Arbeit den praktischen Aspekt der Gedichterstellung im Arabischen, indem wir steuerbare Generierungsfähigkeiten einführen, um Nutzer beim Verfassen von Gedichten zu unterstützen. Konkret stellen wir einen groß angelegten, sorgfältig kuratierten, auf Instruktionen basierenden Datensatz in Modernem Standardarabisch (MSA) und verschiedenen arabischen Dialekten vor. Dieser Datensatz ermöglicht Aufgaben wie das Verfassen, Überarbeiten und Fortsetzen von Gedichten auf der Grundlage vordefinierter Kriterien, einschließlich Stil und Reim, sowie die Durchführung von Gedichtanalysen. Unsere Experimente zeigen, dass das Feinabstimmen von LLMs auf diesem Datensatz Modelle hervorbringt, die effektiv Poesie generieren können, die mit den Nutzeranforderungen übereinstimmt. Dies wird sowohl durch automatisierte Metriken als auch durch humanevaluative Bewertungen mit muttersprachlichen Arabischsprechern belegt. Die Daten und der Code sind unter https://github.com/mbzuai-nlp/instructpoet-ar verfügbar.
English
Poetry has long been a central art form for Arabic speakers, serving as a powerful medium of expression and cultural identity. While modern Arabic speakers continue to value poetry, existing research on Arabic poetry within Large Language Models (LLMs) has primarily focused on analysis tasks such as interpretation or metadata prediction, e.g., rhyme schemes and titles. In contrast, our work addresses the practical aspect of poetry creation in Arabic by introducing controllable generation capabilities to assist users in writing poetry. Specifically, we present a large-scale, carefully curated instruction-based dataset in Modern Standard Arabic (MSA) and various Arabic dialects. This dataset enables tasks such as writing, revising, and continuing poems based on predefined criteria, including style and rhyme, as well as performing poetry analysis. Our experiments show that fine-tuning LLMs on this dataset yields models that can effectively generate poetry that is aligned with user requirements, based on both automated metrics and human evaluation with native Arabic speakers. The data and the code are available at https://github.com/mbzuai-nlp/instructpoet-ar