ChatPaper.aiChatPaper

CREATE: 연관 창의성에 대한 LLM 테스트

CREATE: Testing LLMs for Associative Creativity

March 10, 2026
저자: Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg Durrett
cs.AI

초록

창의성의 핵심 구성 요소는 연합 추론(associative reasoning)으로, 개념들 사이에 새롭면서도 의미 있는 연결을 도출하는 능력을 말합니다. 우리는 모델의 창의적 연합 추론 능력을 평가하기 위해 설계된 벤치마크인 CREATE를 소개합니다. CREATE는 모델이 자신의 매개변수적 지식 내 개념들을 연결하는 경로 집합을 생성하도록 요구합니다. 경로는 높은 특이성(개념 연결의 독특성과 긴밀도)과 높은 다양성(다른 경로와의 비유사성)을 가져야 하며, 모델은 강력하고 다양한 경로를 더 큰 집합으로 생성할수록 높은 점수를 받습니다. 이 과제는 극도로 큰 탐색 공간을 포함하여 가설 생성과 같은 실제 창의성 과제의 요구 사항을 공유하지만, 객관적인 답안 채점이 가능한 상당한 규모의 벤치마크 수집을 가능하게 합니다. 최첨단 모델 평가 결과, 가장 강력한 모델이 다른 모델들보다 높은 창의적 효용을 달성했으며, 답변의 높은 다양성과 탐색의 복잡성으로 인해 벤치마크 포화를 달성하기 어렵다는 점을 보여줍니다. 더 나아가, 우리의 결과는 사고 모델(thinking model)이 높은 토큰 예산에도 불구하고 우리 과제에서 항상 더 효과적인 것은 아니라는 점을 설명합니다. 최근의 창의적 프롬프팅 접근법은 일부 제한적인 추가 개선 효과만을 보였습니다. CREATE는 모델의 연합 창의성 능력을 향상시키는 새로운 방법을 개발하기 위한 실험 공간을 제공합니다.
English
A key component of creativity is associative reasoning: the ability to draw novel yet meaningful connections between concepts. We introduce CREATE, a benchmark designed to evaluate models' capacity for creative associative reasoning. CREATE requires models to generate sets of paths connecting concepts in a model's parametric knowledge. Paths should have high specificity (distinctiveness and closeness of the concept connection) and high diversity (dissimilarity from other paths), and models are scored more highly if they produce a larger set of strong, diverse paths. This task shares demands of real creativity tasks like hypothesis generation, including an extremely large search space, but enables collection of a sizable benchmark with objective answer grading. Evaluation of frontier models shows that the strongest models achieve higher creative utility than others, with the high multiplicity of answers and complexity of the search making benchmark saturation difficult to achieve. Furthermore, our results illustrate that thinking models are not always more effective on our task, even with high token budgets. Recent approaches for creative prompting give some but limited additional improvement. CREATE provides a sandbox for developing new methods to improve models' capacity for associative creativity.
PDF122March 15, 2026