CreativityBench: Оценка творческого мышления агентов через перепрофилирование инструментов на основе аффордансов
CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing
May 6, 2026
Авторы: Cheng Qian, Hyeonjeong Ha, Jiayu Liu, Jeonghwan Kim, Jiateng Liu, Bingxuan Li, Aditi Tiwari, Dwip Dalal, Zhenhailong Wang, Xiusi Chen, Mahdi Namazifar, Yunzhu Li, Heng Ji
cs.AI
Аннотация
Недавние достижения в области больших языковых моделей привели к значительному прогрессу в решении задач логического вывода и взаимодействия со средой, однако их способность к креативному решению проблем остается малоизученной. Мы исследуем эту возможность через призму творческого использования инструментов, когда модель перепрофилирует доступные объекты, анализируя их аффордансы (возможности использования) и атрибуты, а не полагаясь на каноническое применение. В качестве первого шага мы представляем CreativityBench — эталонный набор данных для оценки аффорданс-ориентированной креативности в БЯМ. Для этого мы создали крупномасштабную базу знаний об аффордансах, содержащую 4 тыс. сущностей и более 150 тыс. аннотаций, которые явно связывают объекты, их части, атрибуты и возможные способы применения. На основе этой базы знаний мы сгенерировали 14 тыс. практических задач, требующих поиска нетривиальных, но физически реализуемых решений в условиях ограничений. Оценка 10 современных БЯМ, включая проприетарные и модели с открытым исходным кодом, показала, что модели часто могут выбрать подходящий объект, но не способны корректно идентифицировать необходимые части, их аффордансы и лежащие в основе физические механизмы для решения задачи, что приводит к значительному снижению производительности. Более того, улучшения от масштабирования моделей быстро насыщаются, мощные общие способности к рассуждению не гарантируют успеха в открытии креативных аффордансов, а распространенные стратегии вывода, такие как цепочка мыслей (Chain-of-Thought), дают ограниченный эффект. Эти результаты свидетельствуют, что творческое использование инструментов остается серьезной проблемой для современных моделей, а CreativityBench предоставляет полезный полигон для изучения этого недостающего измерения интеллекта, что может иметь значение для модулей планирования и рассуждений в будущих агентах ИИ.
English
Recent advances in large language models have led to strong performance on reasoning and environment-interaction tasks, yet their ability for creative problem-solving remains underexplored. We study this capability through the lens of creative tool use, where a model repurposes available objects by reasoning about their affordances and attributes rather than relying on canonical usage. As a first step, we introduce CreativityBench, a benchmark for evaluating affordance-based creativity in LLMs. To this end, we build a large-scale affordance knowledge base (KB) with 4K entities and 150K+ affordance annotations, explicitly linking objects, parts, attributes, and actionable uses. Building on this KB, we generate 14K grounded tasks that require identifying non-obvious yet physically plausible solutions under constraints. Evaluations across 10 state-of-the-art LLMs, including closed and open-source models, show that models can often select a plausible object, but fail to identify the correct parts, their affordances, and the underlying physical mechanism needed to solve the task, leading to a significant drop in performance. Furthermore, improvements from model scaling quickly saturate, strong general reasoning does not reliably translate to creative affordance discovery, and common inference-time strategies such as Chain-of-Thought yield limited gains. These results suggest that creative tool use remains a major challenge for current models, and that CreativityBench provides a useful testbed for studying this missing dimension of intelligence, with potential implications for planning and reasoning modules in future agents.