POEMetric: Die letzte Strophe der Menschheit

Zusammenfassung

Große Sprachmodelle (LLMs) können Gedichte verfassen, aber wie weit sind sie von menschlichen Dichtern entfernt? In diesem Artikel stellen wir POEMetric vor, den ersten umfassenden Rahmen zur Bewertung von Gedichten, der untersucht: 1) grundlegende Fähigkeiten zur Befolgung von Anweisungen bei der Erzeugung von Gedichten in einer bestimmten Form und zu einem bestimmten Thema, 2) fortgeschrittene Fähigkeiten wie Kreativität, lexikalische Vielfalt und Eigenständigkeit, das Evozieren emotionaler Resonanz sowie der Einsatz von Bildsprache und literarischen Stilmitteln und 3) die allgemeine Bewertung der Gesamtqualität des Gedichts und die Einschätzung der Autorschaft. Wir haben einen Datensatz mit menschlichen Gedichten kuratiert – 203 englische Gedichte in 7 festen Formen, annotiert mit Metrum, Reimschemata und Themen – und experimentierten mit 30 LLMs zur Gedichterzeugung basierend auf denselben Formen und Themen wie die menschlichen Daten, insgesamt 6.090 LLM-Gedichte. Basierend auf POEMetric bewerteten wir die Leistung menschlicher Dichter und LLMs durch regelbasierte Evaluation und LLM-as-a-Judge, deren Ergebnisse von menschlichen Experten validiert wurden. Die Ergebnisse zeigen, dass, obwohl das beste Modell eine hohe Formgenauigkeit (4,26 von 5,00, bewertet durch Gemini-2.5-Pro; im Folgenden gleich) und Thementreue (4,99) erreichte, alle Modelle bei den fortgeschrittenen Fähigkeiten nicht das Niveau menschlicher Dichter erreichten, die unübertroffene Werte in Kreativität (4,02), Eigenständigkeit (3,95), emotionaler Resonanz (4,06) sowie im gekonnten Einsatz von Bildsprache (4,49) und literarischen Stilmitteln (4,67) erzielten. Menschen übertrafen auch das leistungsstärkste LLM in der Gesamtqualität der Gedichte (4,22 vs. 3,20). Daher bleibt die Gedichterzeugung eine große Herausforderung für LLMs. Daten und Codes sind unter https://github.com/Bingru-Li/POEMetric verfügbar.

English

Large Language Models (LLMs) can compose poetry, but how far are they from human poets? In this paper, we introduce POEMetric, the first comprehensive framework for poetry evaluation, examining 1) basic instruction-following abilities in generating poems according to a certain form and theme, 2) advanced abilities of showing creativity, lexical diversity, and idiosyncrasy, evoking emotional resonance, and using imagery and literary devices, and 3) general appraisal of the overall poem quality and estimation of authorship. We curated a human poem dataset - 203 English poems of 7 fixed forms annotated with meter, rhyme patterns and themes - and experimented with 30 LLMs for poetry generation based on the same forms and themes of the human data, totaling 6,090 LLM poems. Based on POEMetric, we assessed the performance of both human poets and LLMs through rule-based evaluation and LLM-as-a-judge, whose results were validated by human experts. Results show that, though the top model achieved high form accuracy (4.26 out of 5.00, with Gemini-2.5-Pro as a judge; same below) and theme alignment (4.99), all models failed to reach the same level of advanced abilities as human poets, who achieved unparalleled creativity (4.02), idiosyncrasy (3.95), emotional resonance (4.06), and skillful use of imagery (4.49) and literary devices (4.67). Humans also defeated the best-performing LLM in overall poem quality (4.22 vs. 3.20). As such, poetry generation remains a formidable challenge for LLMs. Data and codes are released at https://github.com/Bingru-Li/POEMetric.

POEMetric: Die letzte Strophe der Menschheit

POEMetric: The Last Stanza of Humanity

Zusammenfassung

Support