CREATE: Het Testen van LLM's op Associatief Creatief Vermogen

Samenvatting

Een cruciaal onderdeel van creativiteit is associatief redeneren: het vermogen om nieuwe doch betekenisvolle verbanden tussen concepten te leggen. Wij introduceren CREATE, een benchmark die is ontworpen om het vermogen van modellen tot creatief associatief redeneren te evalueren. CREATE vereist dat modellen sets van paden genereren die concepten in de parametrische kennis van een model met elkaar verbinden. De paden moeten een hoge specificiteit hebben (onderscheidend vermogen en nauwheid van het conceptuele verband) en een hoge diversiteit (ongelijkheid met andere paden), en modellen scoren hoger als ze een grotere set sterke, diverse paden produceren. Deze taak deelt vereisten met echte creativiteitstaken zoals hypothesegeneratie, waaronder een extreem grote zoekruimte, maar maakt de verzameling van een omvangrijke benchmark met objectieve antwoordbeoordeling mogelijk. Evaluatie van geavanceerde modellen toont aan dat de krachtigste modellen een hogere creatieve utility bereiken dan andere, waarbij de hoge veelvoud aan antwoorden en complexiteit van de zoekopdracht benchmarksaturatie moeilijk bereikbaar maken. Verder illustreren onze resultaten dat denkmodellen niet altijd effectiever zijn voor onze taak, zelfs niet met hoge tokenbudgetten. Recente benaderingen voor creatieve prompting geven een beperkte extra verbetering. CREATE biedt een sandbox voor het ontwikkelen van nieuwe methoden om het associatief creatieve vermogen van modellen te verbeteren.

English

A key component of creativity is associative reasoning: the ability to draw novel yet meaningful connections between concepts. We introduce CREATE, a benchmark designed to evaluate models' capacity for creative associative reasoning. CREATE requires models to generate sets of paths connecting concepts in a model's parametric knowledge. Paths should have high specificity (distinctiveness and closeness of the concept connection) and high diversity (dissimilarity from other paths), and models are scored more highly if they produce a larger set of strong, diverse paths. This task shares demands of real creativity tasks like hypothesis generation, including an extremely large search space, but enables collection of a sizable benchmark with objective answer grading. Evaluation of frontier models shows that the strongest models achieve higher creative utility than others, with the high multiplicity of answers and complexity of the search making benchmark saturation difficult to achieve. Furthermore, our results illustrate that thinking models are not always more effective on our task, even with high token budgets. Recent approaches for creative prompting give some but limited additional improvement. CREATE provides a sandbox for developing new methods to improve models' capacity for associative creativity.

CREATE: Het Testen van LLM's op Associatief Creatief Vermogen

CREATE: Testing LLMs for Associative Creativity

Samenvatting

Support