POEMetric : Le Dernier Quatrain de l'Humanité

Résumé

Les grands modèles de langage (LLM) peuvent composer de la poésie, mais à quelle distance se trouvent-ils des poètes humains ? Dans cet article, nous présentons POEMetric, le premier cadre complet d'évaluation poétique, examinant 1) les capacités fondamentales à suivre des instructions pour générer des poèmes selon une forme et un thème donnés, 2) les capacités avancées à faire preuve de créativité, de diversité lexicale et d'idiosyncrasie, à évoquer une résonance émotionnelle, et à utiliser des images et des procédés littéraires, et 3) l'évaluation générale de la qualité globale du poème et l'estimation de la paternité. Nous avons constitué un jeu de données de poèmes humains – 203 poèmes anglais de 7 formes fixes annotées avec leur mètre, schémas de rimes et thèmes – et expérimenté avec 30 LLM pour la génération poétique basée sur les mêmes formes et thèmes que les données humaines, totalisant 6 090 poèmes de LLM. Sur la base de POEMetric, nous avons évalué les performances des poètes humains et des LLM via une évaluation basée sur des règles et une approche LLM-comme-juge, dont les résultats ont été validés par des experts humains. Les résultats montrent que, bien que le meilleur modèle ait atteint une haute précision formelle (4,26 sur 5,00, avec Gemini-2.5-Pro comme juge ; idem ci-après) et un alignement thématique élevé (4,99), tous les modèles ont échoué à atteindre le même niveau de capacités avancées que les poètes humains, qui ont démontré une créativité (4,02), une idiosyncrasie (3,95), une résonance émotionnelle (4,06) et une maîtrise de l'imagerie (4,49) et des procédés littéraires (4,67) inégalées. Les humains ont également surpassé le LLM le plus performant en qualité poétique globale (4,22 contre 3,20). Ainsi, la génération poétique reste un défi formidable pour les LLM. Les données et codes sont disponibles à l'adresse https://github.com/Bingru-Li/POEMetric.

English

Large Language Models (LLMs) can compose poetry, but how far are they from human poets? In this paper, we introduce POEMetric, the first comprehensive framework for poetry evaluation, examining 1) basic instruction-following abilities in generating poems according to a certain form and theme, 2) advanced abilities of showing creativity, lexical diversity, and idiosyncrasy, evoking emotional resonance, and using imagery and literary devices, and 3) general appraisal of the overall poem quality and estimation of authorship. We curated a human poem dataset - 203 English poems of 7 fixed forms annotated with meter, rhyme patterns and themes - and experimented with 30 LLMs for poetry generation based on the same forms and themes of the human data, totaling 6,090 LLM poems. Based on POEMetric, we assessed the performance of both human poets and LLMs through rule-based evaluation and LLM-as-a-judge, whose results were validated by human experts. Results show that, though the top model achieved high form accuracy (4.26 out of 5.00, with Gemini-2.5-Pro as a judge; same below) and theme alignment (4.99), all models failed to reach the same level of advanced abilities as human poets, who achieved unparalleled creativity (4.02), idiosyncrasy (3.95), emotional resonance (4.06), and skillful use of imagery (4.49) and literary devices (4.67). Humans also defeated the best-performing LLM in overall poem quality (4.22 vs. 3.20). As such, poetry generation remains a formidable challenge for LLMs. Data and codes are released at https://github.com/Bingru-Li/POEMetric.

POEMetric : Le Dernier Quatrain de l'Humanité

POEMetric: The Last Stanza of Humanity

Résumé

Support