POEMetric: Het Laatste Couplet van de Mensheid

Samenvatting

Grote Taalmodellen (LLM's) kunnen poëzie componeren, maar hoe ver staan ze nog van menselijke dichters? In dit artikel introduceren we POEMetric, het eerste uitgebreide raamwerk voor poëzie-evaluatie, dat drie aspecten onderzoekt: 1) basale instructieopvolgingsvaardigheden bij het genereren van gedichten volgens een bepaalde vorm en thema, 2) geavanceerde vaardigheden zoals creativiteit, lexicale diversiteit en eigenzinnigheid, het oproepen van emotionele resonantie, en het gebruik van beeldspraak en stijlfiguren, en 3) algemene beoordeling van de algehele gedichtkwaliteit en inschatting van het auteurschap. Wij stelden een menselijke gedichtendataset samen – 203 Engelstalige gedichten in 7 vaste vormen, geannoteerd met metrum, rijmschema's en thema's – en experimenteerden met 30 LLM's voor poëziegeneratie op basis van dezelfde vormen en thema's als de menselijke data, wat resulteerde in 6.090 LLM-gedichten. Op basis van POEMetric beoordeelden we de prestaties van zowel menselijke dichters als LLM's via regelgebaseerde evaluatie en LLM-als-rechter, waarvan de resultaten werden gevalideerd door menselijke experts. Resultaten tonen aan dat, hoewel het topmodel een hoge vormnauwkeurigheid behaalde (4.26 op 5.00, met Gemini-2.5-Pro als rechter; idem hieronder) en thema-overeenkomst (4.99), alle modellen er niet in slaagden hetzelfde niveau van geavanceerde vaardigheden te bereiken als menselijke dichters, die ongeëvenaarde creativiteit (4.02), eigenzinnigheid (3.95), emotionele resonantie (4.06) en vaardig gebruik van beeldspraak (4.49) en stijlfiguren (4.67) lieten zien. Mensen versloegen ook de best presterende LLM in algehele gedichtkwaliteit (4.22 vs. 3.20). Poëziegeneratie blijft dus een formidabele uitdaging voor LLM's. Data en code zijn vrijgegeven op https://github.com/Bingru-Li/POEMetric.

English

Large Language Models (LLMs) can compose poetry, but how far are they from human poets? In this paper, we introduce POEMetric, the first comprehensive framework for poetry evaluation, examining 1) basic instruction-following abilities in generating poems according to a certain form and theme, 2) advanced abilities of showing creativity, lexical diversity, and idiosyncrasy, evoking emotional resonance, and using imagery and literary devices, and 3) general appraisal of the overall poem quality and estimation of authorship. We curated a human poem dataset - 203 English poems of 7 fixed forms annotated with meter, rhyme patterns and themes - and experimented with 30 LLMs for poetry generation based on the same forms and themes of the human data, totaling 6,090 LLM poems. Based on POEMetric, we assessed the performance of both human poets and LLMs through rule-based evaluation and LLM-as-a-judge, whose results were validated by human experts. Results show that, though the top model achieved high form accuracy (4.26 out of 5.00, with Gemini-2.5-Pro as a judge; same below) and theme alignment (4.99), all models failed to reach the same level of advanced abilities as human poets, who achieved unparalleled creativity (4.02), idiosyncrasy (3.95), emotional resonance (4.06), and skillful use of imagery (4.49) and literary devices (4.67). Humans also defeated the best-performing LLM in overall poem quality (4.22 vs. 3.20). As such, poetry generation remains a formidable challenge for LLMs. Data and codes are released at https://github.com/Bingru-Li/POEMetric.

POEMetric: Het Laatste Couplet van de Mensheid

POEMetric: The Last Stanza of Humanity

Samenvatting

Support