Génération de poésie guidée par instructions en arabe et ses dialectes
Instruction-Guided Poetry Generation in Arabic and Its Dialects
April 30, 2026
Auteurs: Abdelrahman Sadallah, Kareem Elozeiri, Mervat Abassy, Rania Elbadry, Mohamed Anwar, Abed Alhakim Freihat, Preslav Nakov, Fajri Koto
cs.AI
Résumé
La poésie a longtemps été une forme d'art centrale pour les locuteurs arabes, servant de puissant moyen d'expression et d'identité culturelle. Bien que les locuteurs arabes modernes continuent de valoriser la poésie, les recherches existantes sur la poésie arabe dans les grands modèles de langage (LLM) se sont principalement concentrées sur des tâches d'analyse telles que l'interprétation ou la prédiction de métadonnées, par exemple les schémas de rimes et les titres. En revanche, notre travail aborde l'aspect pratique de la création poétique en arabe en introduisant des capacités de génération contrôlée pour aider les utilisateurs à écrire de la poésie. Plus précisément, nous présentons un jeu de données à grande échelle, soigneusement constitué, basé sur des instructions en arabe standard moderne (MSA) et divers dialectes arabes. Ce jeu de données permet des tâches telles que l'écriture, la révision et la continuation de poèmes selon des critères prédéfinis, incluant le style et la rime, ainsi que la réalisation d'analyses poétiques. Nos expériences montrent que le fine-tuning de LLM sur ce jeu de données produit des modèles capables de générer efficacement une poésie alignée sur les exigences des utilisateurs, selon des métriques automatisées et une évaluation humaine par des locuteurs natifs arabes. Les données et le code sont disponibles à l'adresse https://github.com/mbzuai-nlp/instructpoet-ar.
English
Poetry has long been a central art form for Arabic speakers, serving as a powerful medium of expression and cultural identity. While modern Arabic speakers continue to value poetry, existing research on Arabic poetry within Large Language Models (LLMs) has primarily focused on analysis tasks such as interpretation or metadata prediction, e.g., rhyme schemes and titles. In contrast, our work addresses the practical aspect of poetry creation in Arabic by introducing controllable generation capabilities to assist users in writing poetry. Specifically, we present a large-scale, carefully curated instruction-based dataset in Modern Standard Arabic (MSA) and various Arabic dialects. This dataset enables tasks such as writing, revising, and continuing poems based on predefined criteria, including style and rhyme, as well as performing poetry analysis. Our experiments show that fine-tuning LLMs on this dataset yields models that can effectively generate poetry that is aligned with user requirements, based on both automated metrics and human evaluation with native Arabic speakers. The data and the code are available at https://github.com/mbzuai-nlp/instructpoet-ar