CRÉER : Tester les modèles de langage élargis pour la créativité associative

Résumé

Un élément clé de la créativité est le raisonnement associatif : la capacité à établir des connexions nouvelles mais significatives entre des concepts. Nous présentons CREATE, un benchmark conçu pour évaluer la capacité des modèles à effectuer un raisonnement associatif créatif. CREATE exige que les modèles génèrent des ensembles de chemins reliant des concepts au sein des connaissances paramétriques d'un modèle. Les chemins doivent présenter une haute spécificité (caractère distinctif et proximité de la connexion conceptuelle) et une grande diversité (dissimilarité par rapport aux autres chemins), et les modèles obtiennent un score plus élevé s'ils produisent un ensemble plus important de chemins solides et diversifiés. Cette tâche partage les exigences des véritables tâches de créativité comme la génération d'hypothèses, notamment un espace de recherche extrêmement vaste, mais permet la collecte d'un benchmark substantiel avec une évaluation objective des réponses. L'évaluation des modèles les plus avancés montre que les plus performants atteignent une utilité créative supérieure aux autres, la grande multiplicité des réponses et la complexité de la recherche rendant difficile la saturation du benchmark. De plus, nos résultats illustrent que les modèles de pensée ne sont pas toujours plus efficaces sur notre tâche, même avec des budgets de tokens élevés. Les approches récentes d'incitation créative apportent une amélioration supplémentaire, mais limitée. CREATE offre un environnement de test pour développer de nouvelles méthodes afin d'améliorer la capacité des modèles en matière de créativité associative.

English

A key component of creativity is associative reasoning: the ability to draw novel yet meaningful connections between concepts. We introduce CREATE, a benchmark designed to evaluate models' capacity for creative associative reasoning. CREATE requires models to generate sets of paths connecting concepts in a model's parametric knowledge. Paths should have high specificity (distinctiveness and closeness of the concept connection) and high diversity (dissimilarity from other paths), and models are scored more highly if they produce a larger set of strong, diverse paths. This task shares demands of real creativity tasks like hypothesis generation, including an extremely large search space, but enables collection of a sizable benchmark with objective answer grading. Evaluation of frontier models shows that the strongest models achieve higher creative utility than others, with the high multiplicity of answers and complexity of the search making benchmark saturation difficult to achieve. Furthermore, our results illustrate that thinking models are not always more effective on our task, even with high token budgets. Recent approaches for creative prompting give some but limited additional improvement. CREATE provides a sandbox for developing new methods to improve models' capacity for associative creativity.

CRÉER : Tester les modèles de langage élargis pour la créativité associative

CREATE: Testing LLMs for Associative Creativity

Résumé

Support