CRIAR: Testando LLMs para Criatividade Associativa

Resumo

Um componente fundamental da criatividade é o raciocínio associativo: a capacidade de estabelecer conexões novas, mas significativas, entre conceitos. Apresentamos o CREATE, um benchmark concebido para avaliar a capacidade de raciocínio associativo criativo em modelos. O CREATE exige que os modelos gerem conjuntos de caminhos que conectem conceitos no conhecimento paramétrico de um modelo. Os caminhos devem apresentar alta especificidade (distinção e proximidade da conexão conceptual) e alta diversidade (dissemelhança em relação a outros caminhos), e os modelos são mais bem pontuados se produzirem um conjunto maior de caminhos robustos e diversificados. Esta tarefa partilha as exigências de tarefas criativas reais, como a geração de hipóteses, incluindo um espaço de busca extremamente amplo, mas permite a recolha de um benchmark considerável com classificação objetiva de respostas. A avaliação de modelos de última geração mostra que os modelos mais fortes alcançam uma utilidade criativa superior aos demais, sendo a alta multiplicidade de respostas e a complexidade da busca fatores que dificultam a saturação do benchmark. Além disso, os nossos resultados ilustram que os modelos de pensamento nem sempre são mais eficazes na nossa tarefa, mesmo com orçamentos elevados de *tokens*. Abordagens recentes para *prompting* criativo conferem alguma melhoria adicional, mas limitada. O CREATE fornece um ambiente controlado para desenvolver novos métodos que melhorem a capacidade de criatividade associativa dos modelos.

English

A key component of creativity is associative reasoning: the ability to draw novel yet meaningful connections between concepts. We introduce CREATE, a benchmark designed to evaluate models' capacity for creative associative reasoning. CREATE requires models to generate sets of paths connecting concepts in a model's parametric knowledge. Paths should have high specificity (distinctiveness and closeness of the concept connection) and high diversity (dissimilarity from other paths), and models are scored more highly if they produce a larger set of strong, diverse paths. This task shares demands of real creativity tasks like hypothesis generation, including an extremely large search space, but enables collection of a sizable benchmark with objective answer grading. Evaluation of frontier models shows that the strongest models achieve higher creative utility than others, with the high multiplicity of answers and complexity of the search making benchmark saturation difficult to achieve. Furthermore, our results illustrate that thinking models are not always more effective on our task, even with high token budgets. Recent approaches for creative prompting give some but limited additional improvement. CREATE provides a sandbox for developing new methods to improve models' capacity for associative creativity.