CreativityBench : Évaluation du Raisonnement Créatif des Agents par le Réemploi d'Outils Basé sur l'Affordance
CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing
May 6, 2026
Auteurs: Cheng Qian, Hyeonjeong Ha, Jiayu Liu, Jeonghwan Kim, Jiateng Liu, Bingxuan Li, Aditi Tiwari, Dwip Dalal, Zhenhailong Wang, Xiusi Chen, Mahdi Namazifar, Yunzhu Li, Heng Ji
cs.AI
Résumé
Les récentes avancées des grands modèles de langage ont conduit à des performances solides dans les tâches de raisonnement et d'interaction avec l'environnement, mais leur capacité à résoudre des problèmes de manière créative reste peu explorée. Nous étudions cette capacité sous l'angle de l'utilisation créative d'outils, où un modèle réaffecte des objets disponibles en raisonnant sur leurs affordances et attributs plutôt qu'en s'appuyant sur une utilisation canonique. Comme première étape, nous présentons CreativityBench, un benchmark pour évaluer la créativité basée sur les affordances dans les LLM. Pour cela, nous construisons une base de connaissances (KB) à grande échelle sur les affordances, comprenant 4 000 entités et plus de 150 000 annotations d'affordances, reliant explicitement les objets, leurs parties, leurs attributs et leurs utilisations actionnables. En nous appuyant sur cette base de connaissances, nous générons 14 000 tâches concrètes qui nécessitent d'identifier des solutions non évidentes mais physiquement plausibles sous contraintes. Les évaluations sur 10 LLM de pointe, incluant des modèles open source et propriétaires, montrent que les modèles peuvent souvent sélectionner un objet plausible, mais échouent à identifier les parties correctes, leurs affordances et le mécanisme physique sous-jacent nécessaire pour résoudre la tâche, entraînant une baisse significative des performances. De plus, les améliorations liées à la montée en échelle des modèles se saturent rapidement, un raisonnement général solide ne se traduit pas de manière fiable par une découverte créative des affordances, et les stratégies d'inférence courantes comme le raisonnement en chaîne n'apportent que des gains limités. Ces résultats suggèrent que l'utilisation créative d'outils reste un défi majeur pour les modèles actuels, et que CreativityBench constitue un banc d'essai utile pour étudier cette dimension manquante de l'intelligence, avec des implications potentielles pour les modules de planification et de raisonnement des agents futurs.
English
Recent advances in large language models have led to strong performance on reasoning and environment-interaction tasks, yet their ability for creative problem-solving remains underexplored. We study this capability through the lens of creative tool use, where a model repurposes available objects by reasoning about their affordances and attributes rather than relying on canonical usage. As a first step, we introduce CreativityBench, a benchmark for evaluating affordance-based creativity in LLMs. To this end, we build a large-scale affordance knowledge base (KB) with 4K entities and 150K+ affordance annotations, explicitly linking objects, parts, attributes, and actionable uses. Building on this KB, we generate 14K grounded tasks that require identifying non-obvious yet physically plausible solutions under constraints. Evaluations across 10 state-of-the-art LLMs, including closed and open-source models, show that models can often select a plausible object, but fail to identify the correct parts, their affordances, and the underlying physical mechanism needed to solve the task, leading to a significant drop in performance. Furthermore, improvements from model scaling quickly saturate, strong general reasoning does not reliably translate to creative affordance discovery, and common inference-time strategies such as Chain-of-Thought yield limited gains. These results suggest that creative tool use remains a major challenge for current models, and that CreativityBench provides a useful testbed for studying this missing dimension of intelligence, with potential implications for planning and reasoning modules in future agents.