POEMetric: A Última Estrofe da Humanidade
POEMetric: The Last Stanza of Humanity
April 4, 2026
Autores: Bingru Li, Han Wang, Hazel Wilkinson
cs.AI
Resumo
Os Grandes Modelos de Linguagem (LLMs) podem compor poesia, mas quão distantes estão dos poetas humanos? Neste artigo, apresentamos o POEMetric, o primeiro quadro abrangente para avaliação de poesia, examinando 1) as capacidades básicas de seguir instruções para gerar poemas de acordo com uma determinada forma e tema, 2) as capacidades avançadas de demonstrar criatividade, diversidade lexical e idiossincrasia, evocar ressonância emocional e utilizar imagens e recursos literários, e 3) a apreciação geral da qualidade global do poema e a estimativa de autoria. Curámos um conjunto de dados de poemas humanos – 203 poemas ingleses de 7 formas fixas, anotados com métrica, padrões de rima e temas – e realizámos experiências com 30 LLMs para geração de poesia com base nas mesmas formas e temas dos dados humanos, totalizando 6.090 poemas de LLM. Com base no POEMetric, avaliamos o desempenho de poetas humanos e LLMs através de avaliação baseada em regras e usando LLM-como-juiz, cujos resultados foram validados por especialistas humanos. Os resultados mostram que, embora o melhor modelo tenha alcançado alta precisão formal (4,26 em 5,00, usando o Gemini-2.5-Pro como juiz; o mesmo abaixo) e alinhamento temático (4,99), todos os modelos falharam em atingir o mesmo nível de capacidades avançadas que os poetas humanos, que alcançaram criatividade (4,02), idiossincrasia (3,95), ressonância emocional (4,06) e uso habilidoso de imagens (4,49) e recursos literários (4,67) incomparáveis. Os humanos também derrotaram o LLM com melhor desempenho na qualidade geral do poema (4,22 vs. 3,20). Como tal, a geração de poesia permanece um desafio formidável para os LLMs. Os dados e códigos estão disponíveis em https://github.com/Bingru-Li/POEMetric.
English
Large Language Models (LLMs) can compose poetry, but how far are they from human poets? In this paper, we introduce POEMetric, the first comprehensive framework for poetry evaluation, examining 1) basic instruction-following abilities in generating poems according to a certain form and theme, 2) advanced abilities of showing creativity, lexical diversity, and idiosyncrasy, evoking emotional resonance, and using imagery and literary devices, and 3) general appraisal of the overall poem quality and estimation of authorship. We curated a human poem dataset - 203 English poems of 7 fixed forms annotated with meter, rhyme patterns and themes - and experimented with 30 LLMs for poetry generation based on the same forms and themes of the human data, totaling 6,090 LLM poems. Based on POEMetric, we assessed the performance of both human poets and LLMs through rule-based evaluation and LLM-as-a-judge, whose results were validated by human experts. Results show that, though the top model achieved high form accuracy (4.26 out of 5.00, with Gemini-2.5-Pro as a judge; same below) and theme alignment (4.99), all models failed to reach the same level of advanced abilities as human poets, who achieved unparalleled creativity (4.02), idiosyncrasy (3.95), emotional resonance (4.06), and skillful use of imagery (4.49) and literary devices (4.67). Humans also defeated the best-performing LLM in overall poem quality (4.22 vs. 3.20). As such, poetry generation remains a formidable challenge for LLMs. Data and codes are released at https://github.com/Bingru-Li/POEMetric.