POEMetric: La Última Estrofa de la Humanidad

Resumen

Los Modelos de Lenguaje Grandes (LLM) pueden componer poesía, pero ¿qué tan lejos están de los poetas humanos? En este artículo, presentamos POEMetric, el primer marco integral para la evaluación de poesía, examinando 1) las habilidades básicas de seguimiento de instrucciones para generar poemas según una forma y tema determinados, 2) las habilidades avanzadas de mostrar creatividad, diversidad léxica e idiosincrasia, evocar resonancia emocional, y utilizar imágenes y recursos literarios, y 3) la valoración general de la calidad del poema y la estimación de autoría. Curramos un conjunto de datos de poemas humanos —203 poemas en inglés de 7 formas fijas anotados con métrica, esquemas de rima y temas— y experimentamos con 30 LLM para la generación de poesía basada en las mismas formas y temas de los datos humanos, totalizando 6.090 poemas de LLM. Basándonos en POEMetric, evaluamos el rendimiento tanto de poetas humanos como de LLM mediante evaluación basada en reglas y LLM-como-juez, cuyos resultados fueron validados por expertos humanos. Los resultados muestran que, aunque el mejor modelo logró una alta precisión formal (4.26 sobre 5.00, con Gemini-2.5-Pro como juez; lo mismo a continuación) y alineación temática (4.99), todos los modelos no alcanzaron el mismo nivel de habilidades avanzadas que los poetas humanos, quienes lograron una creatividad (4.02), idiosincrasia (3.95), resonancia emocional (4.06) y uso hábil de imágenes (4.49) y recursos literarios (4.67) sin parangón. Los humanos también superaron al LLM de mejor rendimiento en calidad general del poema (4.22 vs. 3.20). Como tal, la generación de poesía sigue siendo un desafío formidable para los LLM. Los datos y códigos se publican en https://github.com/Bingru-Li/POEMetric.

English

Large Language Models (LLMs) can compose poetry, but how far are they from human poets? In this paper, we introduce POEMetric, the first comprehensive framework for poetry evaluation, examining 1) basic instruction-following abilities in generating poems according to a certain form and theme, 2) advanced abilities of showing creativity, lexical diversity, and idiosyncrasy, evoking emotional resonance, and using imagery and literary devices, and 3) general appraisal of the overall poem quality and estimation of authorship. We curated a human poem dataset - 203 English poems of 7 fixed forms annotated with meter, rhyme patterns and themes - and experimented with 30 LLMs for poetry generation based on the same forms and themes of the human data, totaling 6,090 LLM poems. Based on POEMetric, we assessed the performance of both human poets and LLMs through rule-based evaluation and LLM-as-a-judge, whose results were validated by human experts. Results show that, though the top model achieved high form accuracy (4.26 out of 5.00, with Gemini-2.5-Pro as a judge; same below) and theme alignment (4.99), all models failed to reach the same level of advanced abilities as human poets, who achieved unparalleled creativity (4.02), idiosyncrasy (3.95), emotional resonance (4.06), and skillful use of imagery (4.49) and literary devices (4.67). Humans also defeated the best-performing LLM in overall poem quality (4.22 vs. 3.20). As such, poetry generation remains a formidable challenge for LLMs. Data and codes are released at https://github.com/Bingru-Li/POEMetric.

POEMetric: La Última Estrofa de la Humanidad

POEMetric: The Last Stanza of Humanity

Resumen

Support