KreativitätsBench: Bewertung des kreativen Denkens von Agenten durch zweckentfremdete Werkzeugnutzung auf Affordanz-Basis

Zusammenfassung

Jüngste Fortschritte bei großen Sprachmodellen haben zu einer starken Leistung bei Denk- und Umgebungsinteraktionsaufgaben geführt, doch ihre Fähigkeit zum kreativen Problemlösen ist nach wie vor wenig erforscht. Wir untersuchen diese Fähigkeit anhand des kreativen Werkzeuggebrauchs, bei dem ein Modell verfügbare Objekte umfunktioniert, indem es über ihre Affordanzen und Attribute nachdenkt, anstatt sich auf die kanonische Verwendung zu verlassen. Als ersten Schritt führen wir CreativityBench ein, einen Benchmark zur Bewertung affordanzbasierter Kreativität in LLMs. Zu diesem Zweck bauen wir eine groß angelegte Affordanz-Wissensdatenbank mit 4.000 Entitäten und über 150.000 Affordanz-Annotationen auf, die Objekte, Teile, Attribute und aktionierbare Verwendungen explizit verknüpft. Aufbauend auf dieser Wissensdatenbank generieren wir 14.000 fundierte Aufgaben, die die Identifizierung nicht-offensichtlicher, aber physikalisch plausibler Lösungen unter Randbedingungen erfordern. Evaluationen über 10 state-of-the-art LLMs, einschließlich Closed- und Open-Source-Modellen, zeigen, dass Modelle oft ein plausibles Objekt auswählen können, aber daran scheitern, die korrekten Teile, ihre Affordanzen und den zugrundeliegenden physikalischen Mechanismus zur Lösung der Aufgabe zu identifizieren, was zu einem signifikanten Leistungsabfall führt. Darüber hinaus sättigen sich Verbesserungen durch Modellskalierung schnell, eine starke allgemeine Denkfähigkeit führt nicht zuverlässig zur Entdeckung kreativer Affordanzen, und gängige Inferenzzeit-Strategien wie Chain-of-Thought erzielen nur begrenzte Gewinne. Diese Ergebnisse deuten darauf hin, dass kreativer Werkzeuggebrauch nach wie vor eine große Herausforderung für aktuelle Modelle darstellt und dass CreativityBench eine nützliche Testplattform für die Erforschung dieser fehlenden Dimension von Intelligenz bietet, mit potenziellen Implikationen für Planungs- und Denkmodule in zukünftigen Agenten.

English

Recent advances in large language models have led to strong performance on reasoning and environment-interaction tasks, yet their ability for creative problem-solving remains underexplored. We study this capability through the lens of creative tool use, where a model repurposes available objects by reasoning about their affordances and attributes rather than relying on canonical usage. As a first step, we introduce CreativityBench, a benchmark for evaluating affordance-based creativity in LLMs. To this end, we build a large-scale affordance knowledge base (KB) with 4K entities and 150K+ affordance annotations, explicitly linking objects, parts, attributes, and actionable uses. Building on this KB, we generate 14K grounded tasks that require identifying non-obvious yet physically plausible solutions under constraints. Evaluations across 10 state-of-the-art LLMs, including closed and open-source models, show that models can often select a plausible object, but fail to identify the correct parts, their affordances, and the underlying physical mechanism needed to solve the task, leading to a significant drop in performance. Furthermore, improvements from model scaling quickly saturate, strong general reasoning does not reliably translate to creative affordance discovery, and common inference-time strategies such as Chain-of-Thought yield limited gains. These results suggest that creative tool use remains a major challenge for current models, and that CreativityBench provides a useful testbed for studying this missing dimension of intelligence, with potential implications for planning and reasoning modules in future agents.

KreativitätsBench: Bewertung des kreativen Denkens von Agenten durch zweckentfremdete Werkzeugnutzung auf Affordanz-Basis

CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing

Zusammenfassung

Support