ChatPaper.aiChatPaper

CREATE: 連想的創造性における大規模言語モデルの評価

CREATE: Testing LLMs for Associative Creativity

March 10, 2026
著者: Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg Durrett
cs.AI

要旨

創造性の主要な構成要素は、連想的推論である。これは概念間の新規かつ有意義な関連性を見出す能力を指す。本論文では、モデルの創造的連想推論能力を評価するために設計されたベンチマーク「CREATE」を提案する。CREATEは、モデルのパラメトリック知識内で概念間を結ぶ経路の集合を生成することをモデルに要求する。経路は高い特異性(概念間の関連性の明確さと近接性)と高い多様性(他の経路との非類似性)を有するべきであり、強力で多様な経路の集合を多く生成するモデルほど高く評価される。このタスクは、仮説生成のような現実の創造的タスクと同様の要求(極めて大規模な探索空間を含む)を共有しつつ、客観的な回答評価が可能な大規模ベンチマークの構築を可能にする。先端モデルの評価により、最も強力なモデルは他よりも高い創造的効用を達成するが、回答の多重性と探索の複雑さからベンチマークの飽和は困難であることが示された。さらに、思考モデルが高いトークン予算を割り当てられても本タスクで常に有効とは限らないことが結果から明らかとなった。創造的プロンプト手法による最近のアプローチは限定的な改善しかもたらさなかった。CREATEは、モデルの連想的創造性を高める新手法開発のためのサンドボックスを提供する。
English
A key component of creativity is associative reasoning: the ability to draw novel yet meaningful connections between concepts. We introduce CREATE, a benchmark designed to evaluate models' capacity for creative associative reasoning. CREATE requires models to generate sets of paths connecting concepts in a model's parametric knowledge. Paths should have high specificity (distinctiveness and closeness of the concept connection) and high diversity (dissimilarity from other paths), and models are scored more highly if they produce a larger set of strong, diverse paths. This task shares demands of real creativity tasks like hypothesis generation, including an extremely large search space, but enables collection of a sizable benchmark with objective answer grading. Evaluation of frontier models shows that the strongest models achieve higher creative utility than others, with the high multiplicity of answers and complexity of the search making benchmark saturation difficult to achieve. Furthermore, our results illustrate that thinking models are not always more effective on our task, even with high token budgets. Recent approaches for creative prompting give some but limited additional improvement. CREATE provides a sandbox for developing new methods to improve models' capacity for associative creativity.
PDF122March 15, 2026