POEMetric: Последняя строфа человечества
POEMetric: The Last Stanza of Humanity
April 4, 2026
Авторы: Bingru Li, Han Wang, Hazel Wilkinson
cs.AI
Аннотация
Крупные языковые модели (LLM) способны сочинять стихи, но насколько они еще далеки от поэтов-людей? В данной статье мы представляем POEMetric — первую комплексную систему оценки поэзии, которая исследует: 1) базовые способности следовать инструкциям при генерации стихов определенной формы и тематики; 2) продвинутые умения демонстрировать творческое начало, лексическое разнообразие и индивидуальность, вызывать эмоциональный отклик, а также использовать образность и литературные приемы; 3) общую оценку качества стихотворения и определение авторства. Мы собрали набор данных человеческих стихов — 203 английских произведения 7 фиксированных форм с аннотацией метра, рифменных схем и тем — и провели эксперименты по генерации стихов 30 языковыми моделями на основе тех же форм и тем, что и у человеческих стихов, получив в общей сложности 6090 стихотворений от LLM. На основе POEMetric мы оценили результаты как поэтов-людей, так и языковых моделей с помощью rule-based оценки и LLM-as-a-judge, чьи результаты были верифицированы экспертами-людьми. Результаты показывают, что хотя лучшая модель достигла высокой точности формы (4,26 из 5,00 по оценке Gemini-2.5-Pro; далее аналогично) и соответствия теме (4,99), все модели не смогли достичь уровня продвинутых способностей поэтов-людей, которые продемонстрировали непревзойденные творческое начало (4,02), индивидуальность (3,95), эмоциональную глубину (4,06), а также мастерское использование образности (4,49) и литературных приемов (4,67). Люди также превзошли лучшую LLM по общему качеству стихотворений (4,22 против 3,20). Таким образом, генерация поэзии остается сложнейшей задачей для языковых моделей. Данные и код доступны по адресу https://github.com/Bingru-Li/POEMetric.
English
Large Language Models (LLMs) can compose poetry, but how far are they from human poets? In this paper, we introduce POEMetric, the first comprehensive framework for poetry evaluation, examining 1) basic instruction-following abilities in generating poems according to a certain form and theme, 2) advanced abilities of showing creativity, lexical diversity, and idiosyncrasy, evoking emotional resonance, and using imagery and literary devices, and 3) general appraisal of the overall poem quality and estimation of authorship. We curated a human poem dataset - 203 English poems of 7 fixed forms annotated with meter, rhyme patterns and themes - and experimented with 30 LLMs for poetry generation based on the same forms and themes of the human data, totaling 6,090 LLM poems. Based on POEMetric, we assessed the performance of both human poets and LLMs through rule-based evaluation and LLM-as-a-judge, whose results were validated by human experts. Results show that, though the top model achieved high form accuracy (4.26 out of 5.00, with Gemini-2.5-Pro as a judge; same below) and theme alignment (4.99), all models failed to reach the same level of advanced abilities as human poets, who achieved unparalleled creativity (4.02), idiosyncrasy (3.95), emotional resonance (4.06), and skillful use of imagery (4.49) and literary devices (4.67). Humans also defeated the best-performing LLM in overall poem quality (4.22 vs. 3.20). As such, poetry generation remains a formidable challenge for LLMs. Data and codes are released at https://github.com/Bingru-Li/POEMetric.