ChatPaper.aiChatPaper

Генерация поэзии на арабском языке и его диалектах с использованием инструкций

Instruction-Guided Poetry Generation in Arabic and Its Dialects

April 30, 2026
Авторы: Abdelrahman Sadallah, Kareem Elozeiri, Mervat Abassy, Rania Elbadry, Mohamed Anwar, Abed Alhakim Freihat, Preslav Nakov, Fajri Koto
cs.AI

Аннотация

Поэзия издавна является центральной формой искусства для арабоговорящих, служа мощным средством выражения и культурной идентичности. Хотя современные носители арабского языка продолжают ценить поэзию, существующие исследования арабской поэзии в рамках больших языковых моделей (LLM) в основном сосредоточены на задачах анализа, таких как интерпретация или предсказание метаданных, например, схем рифм и заголовков. В отличие от этого, наша работа решает практический аспект создания поэзии на арабском языке, вводя контролируемые возможности генерации для помощи пользователям в написании стихов. В частности, мы представляем крупномасштабный, тщательно отобранный набор данных на основе инструкций на современном стандартном арабском языке (MSA) и различных арабских диалектах. Этот набор данных позволяет выполнять такие задачи, как написание, редактирование и продолжение стихотворений на основе предопределенных критериев, включая стиль и рифму, а также проводить анализ поэзии. Наши эксперименты показывают, что тонкая настройка LLM на этом наборе данных позволяет получить модели, способные эффективно генерировать поэзию, соответствующую требованиям пользователей, что подтверждается как автоматическими метриками, так и оценкой носителями арабского языка. Данные и код доступны по адресу https://github.com/mbzuai-nlp/instructpoet-ar.
English
Poetry has long been a central art form for Arabic speakers, serving as a powerful medium of expression and cultural identity. While modern Arabic speakers continue to value poetry, existing research on Arabic poetry within Large Language Models (LLMs) has primarily focused on analysis tasks such as interpretation or metadata prediction, e.g., rhyme schemes and titles. In contrast, our work addresses the practical aspect of poetry creation in Arabic by introducing controllable generation capabilities to assist users in writing poetry. Specifically, we present a large-scale, carefully curated instruction-based dataset in Modern Standard Arabic (MSA) and various Arabic dialects. This dataset enables tasks such as writing, revising, and continuing poems based on predefined criteria, including style and rhyme, as well as performing poetry analysis. Our experiments show that fine-tuning LLMs on this dataset yields models that can effectively generate poetry that is aligned with user requirements, based on both automated metrics and human evaluation with native Arabic speakers. The data and the code are available at https://github.com/mbzuai-nlp/instructpoet-ar
PDF11May 2, 2026