CREA: Testare i Modelli Linguistici per la Creatività Associativa

Abstract

Un componente chiave della creatività è il ragionamento associativo: la capacità di stabilire connessioni nuove ma significative tra concetti. Introduciamo CREATE, un benchmark progettato per valutare la capacità dei modelli di ragionamento associativo creativo. CREATE richiede ai modelli di generare insiemi di percorsi che colleghino concetti all'interno della conoscenza parametrica del modello. I percorsi dovrebbero avere un'elevata specificità (distintività e prossimità della connessione concettuale) e un'elevata diversità (dissomiglianza rispetto ad altri percorsi), e i modelli ottengono punteggi più alti se producono un insieme più ampio di percorsi solidi e diversificati. Questo compito condivide le esigenze di compiti creativi reali come la generazione di ipotesi, inclusa una spazio di ricerca estremamente ampio, ma consente la raccolta di un benchmark di dimensioni considerevoli con una valutazione oggettiva delle risposte. La valutazione dei modelli più all'avanguardia mostra che i modelli più potenti raggiungono un'utilità creativa superiore rispetto ad altri, con l'elevata molteplicità delle risposte e la complessità della ricerca che rendono difficile la saturazione del benchmark. Inoltre, i nostri risultati illustrano che i modelli di pensiero non sono sempre più efficaci nel nostro compito, anche con budget di token elevati. Gli approcci recenti per il prompting creativo forniscono un miglioramento aggiuntivo, ma limitato. CREATE fornisce un ambiente controllato per sviluppare nuovi metodi per migliorare la capacità di creatività associativa dei modelli.

English

A key component of creativity is associative reasoning: the ability to draw novel yet meaningful connections between concepts. We introduce CREATE, a benchmark designed to evaluate models' capacity for creative associative reasoning. CREATE requires models to generate sets of paths connecting concepts in a model's parametric knowledge. Paths should have high specificity (distinctiveness and closeness of the concept connection) and high diversity (dissimilarity from other paths), and models are scored more highly if they produce a larger set of strong, diverse paths. This task shares demands of real creativity tasks like hypothesis generation, including an extremely large search space, but enables collection of a sizable benchmark with objective answer grading. Evaluation of frontier models shows that the strongest models achieve higher creative utility than others, with the high multiplicity of answers and complexity of the search making benchmark saturation difficult to achieve. Furthermore, our results illustrate that thinking models are not always more effective on our task, even with high token budgets. Recent approaches for creative prompting give some but limited additional improvement. CREATE provides a sandbox for developing new methods to improve models' capacity for associative creativity.

CREA: Testare i Modelli Linguistici per la Creatività Associativa

CREATE: Testing LLMs for Associative Creativity

Abstract

Support