СОЗДАНИЕ: Тестирование больших языковых моделей на ассоциативное творчество
CREATE: Testing LLMs for Associative Creativity
March 10, 2026
Авторы: Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg Durrett
cs.AI
Аннотация
Ключевым компонентом креативности является ассоциативное мышление: способность устанавливать новые, но осмысленные связи между концепциями. Мы представляем CREATE — эталонный тест, разработанный для оценки способности моделей к творческому ассоциативному мышлению. CREATE требует от моделей генерации наборов путей, связывающих концепции в параметрическом знании модели. Пути должны обладать высокой специфичностью (уникальностью и теснотой связи концепций) и высоким разнообразием (несхожестью с другими путями), причем модели получают более высокие баллы, если они производят больший набор сильных и разнообразных путей. Эта задача разделяет требования реальных творческих задач, таких как генерация гипотез, включая чрезвычайно большое пространство поиска, но позволяет собрать масштабный эталонный тест с объективной оценкой ответов. Оценка передовых моделей показывает, что наиболее мощные модели достигают более высокой творческой полезности, чем другие, а высокая множественность ответов и сложность поиска затрудняют насыщение теста. Кроме того, наши результаты демонстрируют, что модели мышления не всегда эффективнее в нашей задаче, даже при высоких бюджетах токенов. Современные подходы к творческому промптингу дают некоторое, но ограниченное дополнительное улучшение. CREATE предоставляет песочницу для разработки новых методов повышения способности моделей к ассоциативной креативности.
English
A key component of creativity is associative reasoning: the ability to draw novel yet meaningful connections between concepts. We introduce CREATE, a benchmark designed to evaluate models' capacity for creative associative reasoning. CREATE requires models to generate sets of paths connecting concepts in a model's parametric knowledge. Paths should have high specificity (distinctiveness and closeness of the concept connection) and high diversity (dissimilarity from other paths), and models are scored more highly if they produce a larger set of strong, diverse paths. This task shares demands of real creativity tasks like hypothesis generation, including an extremely large search space, but enables collection of a sizable benchmark with objective answer grading. Evaluation of frontier models shows that the strongest models achieve higher creative utility than others, with the high multiplicity of answers and complexity of the search making benchmark saturation difficult to achieve. Furthermore, our results illustrate that thinking models are not always more effective on our task, even with high token budgets. Recent approaches for creative prompting give some but limited additional improvement. CREATE provides a sandbox for developing new methods to improve models' capacity for associative creativity.