POEMetric: 인류의 마지막 시절
POEMetric: The Last Stanza of Humanity
April 4, 2026
저자: Bingru Li, Han Wang, Hazel Wilkinson
cs.AI
초록
대규모 언어 모델(LLM)은 시를 창작할 수 있지만, 인간 시인과의 격차는 어느 정도일까? 본 논문에서는 시 평가를 위한 최초의 포괄적 프레임워크인 POEMetric을 소개한다. 이 프레임워크는 1) 특정 형식과 주제에 따른 시 생성이라는 기본적인 지시 따르기 능력, 2) 창의성, 어휘 다양성, 개성 표출, 정서적 공감대 형성, 이미지 및 문학적 기법 활용이라는 고급 능력, 3) 시 전체 품질에 대한 종합적 평가와 저자 추정을 평가한다. 우리는 인간이 작성한 시 데이터셋(7가지 고정 형식의 203편 영어 시로, 운율, 운율 패턴, 주제가 주석 달려 있음)을 구축하고, 인간 데이터와 동일한 형식과 주제를 바탕으로 30개의 LLM을 이용한 시 생성 실험을 진행하여 총 6,090편의 LLM 생성 시를 확보했다. POEMetric을 기반으로 규칙 기반 평가와 LLM-as-a-judge(판사로서의 LLM)를 통해 인간 시인과 LLM의 성능을 평가했으며, 그 결과는 인간 전문가에 의해 검증되었다. 결과에 따르면, 최상위 모델이 높은 형식 정확도(5점 만점에 4.26점, Gemini-2.5-Pro 기준; 이하 동일)와 주제 일치도(4.99점)를 달성했음에도 불구하고, 모든 모델은 인간 시인만이 달성한 탁월한 창의성(4.02점), 개성(3.95점), 정서적 공감도(4.06점), 그리고 이미지(4.49점) 및 문학적 기법(4.67점)의 숙련된 활용 측면에서 동등한 수준의 고급 능력에 도달하지 못했다. 또한 전체 시 품질 평가에서도 인간이 가장 성능이 좋은 LLM을 압도했다(4.22점 대 3.20점). 따라서 시 생성은 LLM에게 여전히 난제로 남아 있다. 데이터와 코드는 https://github.com/Bingru-Li/POEMetric 에서 공개한다.
English
Large Language Models (LLMs) can compose poetry, but how far are they from human poets? In this paper, we introduce POEMetric, the first comprehensive framework for poetry evaluation, examining 1) basic instruction-following abilities in generating poems according to a certain form and theme, 2) advanced abilities of showing creativity, lexical diversity, and idiosyncrasy, evoking emotional resonance, and using imagery and literary devices, and 3) general appraisal of the overall poem quality and estimation of authorship. We curated a human poem dataset - 203 English poems of 7 fixed forms annotated with meter, rhyme patterns and themes - and experimented with 30 LLMs for poetry generation based on the same forms and themes of the human data, totaling 6,090 LLM poems. Based on POEMetric, we assessed the performance of both human poets and LLMs through rule-based evaluation and LLM-as-a-judge, whose results were validated by human experts. Results show that, though the top model achieved high form accuracy (4.26 out of 5.00, with Gemini-2.5-Pro as a judge; same below) and theme alignment (4.99), all models failed to reach the same level of advanced abilities as human poets, who achieved unparalleled creativity (4.02), idiosyncrasy (3.95), emotional resonance (4.06), and skillful use of imagery (4.49) and literary devices (4.67). Humans also defeated the best-performing LLM in overall poem quality (4.22 vs. 3.20). As such, poetry generation remains a formidable challenge for LLMs. Data and codes are released at https://github.com/Bingru-Li/POEMetric.