CreativityBench: Evaluación del Razonamiento Creativo de Agentes mediante la Reutilización de Herramientas Basada en Asequibilidad
CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing
May 6, 2026
Autores: Cheng Qian, Hyeonjeong Ha, Jiayu Liu, Jeonghwan Kim, Jiateng Liu, Bingxuan Li, Aditi Tiwari, Dwip Dalal, Zhenhailong Wang, Xiusi Chen, Mahdi Namazifar, Yunzhu Li, Heng Ji
cs.AI
Resumen
Los recientes avances en los modelos de lenguaje a gran escala han logrado un rendimiento sólido en tareas de razonamiento e interacción con el entorno, pero su capacidad para la resolución creativa de problemas sigue sin explorarse en profundidad. Estudiamos esta capacidad a través del lente del uso creativo de herramientas, donde un modelo reutiliza objetos disponibles razonando sobre sus posibilidades de acción (affordances) y atributos, en lugar de depender de usos canónicos. Como primer paso, presentamos CreativityBench, un punto de referencia para evaluar la creatividad basada en affordances en los LLM. Para ello, construimos una base de conocimientos (KB) a gran escala sobre affordances con 4.000 entidades y más de 150.000 anotaciones, vinculando explícitamente objetos, partes, atributos y usos accionables. Sobre esta base, generamos 14.000 tareas fundamentadas que requieren identificar soluciones no obvias pero físicamente plausibles bajo restricciones. Las evaluaciones en 10 LLM de vanguardia, incluidos modelos de código abierto y cerrado, muestran que los modelos a menudo pueden seleccionar un objeto plausible, pero fallan en identificar las partes correctas, sus affordances y el mecanismo físico subyacente necesario para resolver la tarea, lo que conduce a una caída significativa en el rendimiento. Además, las mejoras derivadas del escalado de modelos se saturan rápidamente, un razonamiento general sólido no se traduce de manera fiable en el descubrimiento creativo de affordances, y estrategias comunes en tiempo de inferencia, como la Cadena de Pensamiento, producen ganancias limitadas. Estos resultados sugieren que el uso creativo de herramientas sigue siendo un desafío importante para los modelos actuales, y que CreativityBench proporciona un banco de pruebas útil para estudiar esta dimensión faltante de la inteligencia, con posibles implicaciones para los módulos de planificación y razonamiento en futuros agentes.
English
Recent advances in large language models have led to strong performance on reasoning and environment-interaction tasks, yet their ability for creative problem-solving remains underexplored. We study this capability through the lens of creative tool use, where a model repurposes available objects by reasoning about their affordances and attributes rather than relying on canonical usage. As a first step, we introduce CreativityBench, a benchmark for evaluating affordance-based creativity in LLMs. To this end, we build a large-scale affordance knowledge base (KB) with 4K entities and 150K+ affordance annotations, explicitly linking objects, parts, attributes, and actionable uses. Building on this KB, we generate 14K grounded tasks that require identifying non-obvious yet physically plausible solutions under constraints. Evaluations across 10 state-of-the-art LLMs, including closed and open-source models, show that models can often select a plausible object, but fail to identify the correct parts, their affordances, and the underlying physical mechanism needed to solve the task, leading to a significant drop in performance. Furthermore, improvements from model scaling quickly saturate, strong general reasoning does not reliably translate to creative affordance discovery, and common inference-time strategies such as Chain-of-Thought yield limited gains. These results suggest that creative tool use remains a major challenge for current models, and that CreativityBench provides a useful testbed for studying this missing dimension of intelligence, with potential implications for planning and reasoning modules in future agents.