ERSTELLEN: Assoziative Kreativität bei großen Sprachmodellen testen

Zusammenfassung

Ein Schlüsselelement der Kreativität ist assoziatives Denken: die Fähigkeit, neuartige und doch sinnvolle Verbindungen zwischen Konzepten herzustellen. Wir stellen CREATE vor, einen Benchmark, der entwickelt wurde, um die Fähigkeit von Modellen zu kreativem assoziativen Denken zu bewerten. CREATE erfordert, dass Modelle Mengen von Pfaden generieren, die Konzepte im parametrischen Wissen eines Modells verbinden. Die Pfade sollten eine hohe Spezifität (Unterscheidungskraft und Enge der Konzeptverbindung) und eine hohe Diversität (Unterschiedlichkeit zu anderen Pfaden) aufweisen, und Modelle erhalten eine höhere Bewertung, wenn sie eine größere Menge an starken, vielfältigen Pfaden erzeugen. Diese Aufgabe teilt Anforderungen realer Kreativitätsaufgaben wie der Hypothesengenerierung, einschließlich eines extrem großen Suchraums, ermöglicht aber die Sammlung eines umfangreichen Benchmarks mit objektiver Bewertung der Antworten. Die Evaluierung von Spitzenmodellen zeigt, dass die leistungsstärksten Modelle eine höhere kreative Nützlichkeit erreichen als andere, wobei die hohe Vielfalt der Antworten und die Komplexität der Suche eine Benchmarksättigung schwer erreichbar machen. Darüber hinaus verdeutlichen unsere Ergebnisse, dass Denkmodelle in unserer Aufgabe nicht immer effektiver sind, selbst bei hohen Token-Budgets. Aktuelle Ansätze für kreatives Prompting bringen begrenzte zusätzliche Verbesserungen. CREATE bietet eine Sandbox für die Entwicklung neuer Methoden zur Verbesserung der assoziativen Kreativitätsfähigkeit von Modellen.

English

A key component of creativity is associative reasoning: the ability to draw novel yet meaningful connections between concepts. We introduce CREATE, a benchmark designed to evaluate models' capacity for creative associative reasoning. CREATE requires models to generate sets of paths connecting concepts in a model's parametric knowledge. Paths should have high specificity (distinctiveness and closeness of the concept connection) and high diversity (dissimilarity from other paths), and models are scored more highly if they produce a larger set of strong, diverse paths. This task shares demands of real creativity tasks like hypothesis generation, including an extremely large search space, but enables collection of a sizable benchmark with objective answer grading. Evaluation of frontier models shows that the strongest models achieve higher creative utility than others, with the high multiplicity of answers and complexity of the search making benchmark saturation difficult to achieve. Furthermore, our results illustrate that thinking models are not always more effective on our task, even with high token budgets. Recent approaches for creative prompting give some but limited additional improvement. CREATE provides a sandbox for developing new methods to improve models' capacity for associative creativity.

ERSTELLEN: Assoziative Kreativität bei großen Sprachmodellen testen

CREATE: Testing LLMs for Associative Creativity

Zusammenfassung

Support