CreativityBench: Evaluatie van Creatief Redeneren bij Agents via Affordance-Gebaseerd Hergebruik van Hulpmiddelen
CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing
May 6, 2026
Auteurs: Cheng Qian, Hyeonjeong Ha, Jiayu Liu, Jeonghwan Kim, Jiateng Liu, Bingxuan Li, Aditi Tiwari, Dwip Dalal, Zhenhailong Wang, Xiusi Chen, Mahdi Namazifar, Yunzhu Li, Heng Ji
cs.AI
Samenvatting
Recente vooruitgang in grote taalmodellen heeft geleid tot sterke prestaties op het gebied van redeneer- en omgevingsinteractietaken, maar hun vermogen voor creatief probleemoplossen blijft onderbelicht. Wij bestuderen dit vermogen door de lens van creatief gereedschapsgebruik, waarbij een model beschikbare objecten een nieuwe functie geeft door te redeneren over hun affordanties (gebruiksmogelijkheden) en attributen in plaats van te vertrouwen op canoniek gebruik. Als eerste stap introduceren we CreativityBench, een benchmark voor het evalueren van op affordanties gebaseerde creativiteit in grote taalmodellen. Hiertoe bouwen we een grootschalige kennisbank voor affordanties met 4K entiteiten en 150K+ affordantie-annotaties, die objecten, onderdelen, attributen en uitvoerbare gebruiksmogelijkheden expliciet koppelt. Op basis van deze kennisbank genereren we 14K gegronde taken die vereisen dat niet-voor de hand liggende, maar fysiek plausibele oplossingen worden geïdentificeerd onder bepaalde beperkingen. Evaluaties van 10 state-of-the-art grote taalmodellen, inclusief closed- en open-source modellen, tonen aan dat modellen vaak een plausibel object kunnen selecteren, maar falen in het identificeren van de correcte onderdelen, hun affordanties en het onderliggende fysieke mechanisme dat nodig is om de taak op te lossen, wat leidt tot een significante daling in prestaties. Verder satureren verbeteringen door modelschaling snel, vertaalt sterk algemeen redeneervermogen zich niet betrouwbaar naar het ontdekken van creatieve affordanties, en leveren veelgebruikte inferentiestrategieën zoals Chain-of-Thought beperkte winst op. Deze resultaten suggereren dat creatief gereedschapsgebruik een grote uitdaging blijft voor huidige modellen, en dat CreativityBench een nuttige testomgeving biedt voor het bestuderen van deze ontbrekende dimensie van intelligentie, met potentiële implicaties voor plannings- en redeneermodules in toekomstige agents.
English
Recent advances in large language models have led to strong performance on reasoning and environment-interaction tasks, yet their ability for creative problem-solving remains underexplored. We study this capability through the lens of creative tool use, where a model repurposes available objects by reasoning about their affordances and attributes rather than relying on canonical usage. As a first step, we introduce CreativityBench, a benchmark for evaluating affordance-based creativity in LLMs. To this end, we build a large-scale affordance knowledge base (KB) with 4K entities and 150K+ affordance annotations, explicitly linking objects, parts, attributes, and actionable uses. Building on this KB, we generate 14K grounded tasks that require identifying non-obvious yet physically plausible solutions under constraints. Evaluations across 10 state-of-the-art LLMs, including closed and open-source models, show that models can often select a plausible object, but fail to identify the correct parts, their affordances, and the underlying physical mechanism needed to solve the task, leading to a significant drop in performance. Furthermore, improvements from model scaling quickly saturate, strong general reasoning does not reliably translate to creative affordance discovery, and common inference-time strategies such as Chain-of-Thought yield limited gains. These results suggest that creative tool use remains a major challenge for current models, and that CreativityBench provides a useful testbed for studying this missing dimension of intelligence, with potential implications for planning and reasoning modules in future agents.