ChatPaper.aiChatPaper

アラビア語とその方言における指示に基づく詩生成

Instruction-Guided Poetry Generation in Arabic and Its Dialects

April 30, 2026
著者: Abdelrahman Sadallah, Kareem Elozeiri, Mervat Abassy, Rania Elbadry, Mohamed Anwar, Abed Alhakim Freihat, Preslav Nakov, Fajri Koto
cs.AI

要旨

アラビア語話者にとって、詩は長らく中心的な芸術形態であり、表現と文化的アイデンティティの強力な媒体として機能してきた。現代のアラビア語話者も詩を重視し続けているが、大規模言語モデル(LLM)におけるアラビア詩に関する既存研究は、解釈や韻律パターン・タイトルなどのメタデータ予測といった分析タスクに主眼が置かれてきた。対照的に、我々の研究は、ユーザーが詩を作成するのを支援するための制御可能な生成機能を導入することで、アラビア語における詩の創作という実践的側面に取り組む。具体的には、近代標準アラビア語(MSA)および様々なアラビア語方言による、大規模で注意深く精選された命令ベースのデータセットを提示する。このデータセットは、スタイルや韻といった所定の基準に基づいて詩を執筆、修正、継承するタスク、ならびに詩の分析を実行することを可能にする。我々の実験では、このデータセットでLLMをファインチューニングすることにより、自動評価指標とアラビア語母語話者による人間評価の両方に基づいて、ユーザーの要求に沿った詩を効果的に生成できるモデルが得られることが示されている。データとコードは https://github.com/mbzuai-nlp/instructpoet-ar で公開されている。
English
Poetry has long been a central art form for Arabic speakers, serving as a powerful medium of expression and cultural identity. While modern Arabic speakers continue to value poetry, existing research on Arabic poetry within Large Language Models (LLMs) has primarily focused on analysis tasks such as interpretation or metadata prediction, e.g., rhyme schemes and titles. In contrast, our work addresses the practical aspect of poetry creation in Arabic by introducing controllable generation capabilities to assist users in writing poetry. Specifically, we present a large-scale, carefully curated instruction-based dataset in Modern Standard Arabic (MSA) and various Arabic dialects. This dataset enables tasks such as writing, revising, and continuing poems based on predefined criteria, including style and rhyme, as well as performing poetry analysis. Our experiments show that fine-tuning LLMs on this dataset yields models that can effectively generate poetry that is aligned with user requirements, based on both automated metrics and human evaluation with native Arabic speakers. The data and the code are available at https://github.com/mbzuai-nlp/instructpoet-ar
PDF11May 2, 2026