Generazione di Poesia Guidata da Istruzioni in Arabo e nei suoi Dialetti
Instruction-Guided Poetry Generation in Arabic and Its Dialects
April 30, 2026
Autori: Abdelrahman Sadallah, Kareem Elozeiri, Mervat Abassy, Rania Elbadry, Mohamed Anwar, Abed Alhakim Freihat, Preslav Nakov, Fajri Koto
cs.AI
Abstract
La poesia è da lungo tempo una forma d'arte centrale per i parlanti arabi, fungendo da potente mezzo di espressione e identità culturale. Sebbene i parlanti arabi moderni continuino a valorizzare la poesia, la ricerca esistente sulla poesia araba all'interno dei Large Language Model (LLM) si è concentrata principalmente su compiti di analisi come l'interpretazione o la previsione di metadati, ad esempio gli schemi di rima e i titoli. Al contrario, il nostro lavoro affronta l'aspetto pratico della creazione poetica in arabo introducendo capacità di generazione controllabile per assistere gli utenti nella scrittura di poesie. Nello specifico, presentiamo un dataset su larga scala e accuratamente curato, basato su istruzioni, in arabo standard moderno (MSA) e vari dialetti arabi. Questo dataset abilita compiti come scrivere, revisionare e continuare poesie sulla base di criteri predefiniti, inclusi stile e rima, oltre a eseguire analisi poetica. I nostri esperimenti mostrano che il fine-tuning di LLM su questo dataset produce modelli in grado di generare efficacemente poesie allineate con i requisiti dell'utente, come dimostrato sia da metriche automatizzate che da valutazioni umane con parlanti nativi di arabo. I dati e il codice sono disponibili all'indirizzo https://github.com/mbzuai-nlp/instructpoet-ar.
English
Poetry has long been a central art form for Arabic speakers, serving as a powerful medium of expression and cultural identity. While modern Arabic speakers continue to value poetry, existing research on Arabic poetry within Large Language Models (LLMs) has primarily focused on analysis tasks such as interpretation or metadata prediction, e.g., rhyme schemes and titles. In contrast, our work addresses the practical aspect of poetry creation in Arabic by introducing controllable generation capabilities to assist users in writing poetry. Specifically, we present a large-scale, carefully curated instruction-based dataset in Modern Standard Arabic (MSA) and various Arabic dialects. This dataset enables tasks such as writing, revising, and continuing poems based on predefined criteria, including style and rhyme, as well as performing poetry analysis. Our experiments show that fine-tuning LLMs on this dataset yields models that can effectively generate poetry that is aligned with user requirements, based on both automated metrics and human evaluation with native Arabic speakers. The data and the code are available at https://github.com/mbzuai-nlp/instructpoet-ar