CREAR: Evaluación de Modelos de Lenguaje Grandes en Creatividad Asociativa

Resumen

Un componente clave de la creatividad es el razonamiento asociativo: la capacidad de establecer conexiones novedosas pero significativas entre conceptos. Presentamos CREATE, un benchmark diseñado para evaluar la capacidad de los modelos para el razonamiento asociativo creativo. CREATE requiere que los modelos generen conjuntos de trayectorias que conecten conceptos dentro del conocimiento paramétrico del modelo. Las trayectorias deben tener alta especificidad (distintividad y cercanía de la conexión conceptual) y alta diversidad (disimilitud con otras trayectorias), y los modelos obtienen puntuaciones más altas si producen un conjunto más grande de trayectorias sólidas y diversas. Esta tarea comparte exigencias de tareas creativas reales como la generación de hipótesis, incluyendo un espacio de búsqueda extremadamente grande, pero permite la recopilación de un benchmark considerable con una evaluación objetiva de respuestas. La evaluación de modelos de vanguardia muestra que los modelos más potentes alcanzan una utilidad creativa superior a los demás, siendo la alta multiplicidad de respuestas y la complejidad de la búsqueda lo que dificulta alcanzar la saturación del benchmark. Además, nuestros resultados ilustran que los modelos de pensamiento (thinking models) no siempre son más efectivos en nuestra tarea, incluso con presupuestos altos de tokens. Los enfoques recientes de prompting creativo aportan una mejora adicional, pero limitada. CREATE proporciona un entorno controlado para desarrollar nuevos métodos que mejoren la capacidad de creatividad asociativa de los modelos.

English

A key component of creativity is associative reasoning: the ability to draw novel yet meaningful connections between concepts. We introduce CREATE, a benchmark designed to evaluate models' capacity for creative associative reasoning. CREATE requires models to generate sets of paths connecting concepts in a model's parametric knowledge. Paths should have high specificity (distinctiveness and closeness of the concept connection) and high diversity (dissimilarity from other paths), and models are scored more highly if they produce a larger set of strong, diverse paths. This task shares demands of real creativity tasks like hypothesis generation, including an extremely large search space, but enables collection of a sizable benchmark with objective answer grading. Evaluation of frontier models shows that the strongest models achieve higher creative utility than others, with the high multiplicity of answers and complexity of the search making benchmark saturation difficult to achieve. Furthermore, our results illustrate that thinking models are not always more effective on our task, even with high token budgets. Recent approaches for creative prompting give some but limited additional improvement. CREATE provides a sandbox for developing new methods to improve models' capacity for associative creativity.

CREAR: Evaluación de Modelos de Lenguaje Grandes en Creatividad Asociativa

CREATE: Testing LLMs for Associative Creativity

Resumen

Support