AFFORDANCE20Q: Оценка рассуждений об аффордансах на основе физических свойств

Аннотация

Рассуждение об аффордансах — умозаключение о возможностях взаимодействия с объектом на основе его физических свойств (например, формы и материала) — является фундаментальным для физического понимания человека и становится всё более важным для больших языковых моделей (БЯМ). Однако существующие эталонные тесты аффордансов в значительной степени раскрывают явные идентификаторы объектов в экспериментальной установке, что позволяет моделям полагаться на запомненные соответствия «объект–аффорданс» вместо рассуждений о физических свойствах. Чтобы устранить этот пробел, мы представляем Affordance20Q, новый эталонный тест для рассуждений об аффордансах, сформулированный как игра в «20 вопросов» без раскрытия идентификатора объекта. В каждой игре модель определяет аффорданс скрытого объекта из набора кандидатов, задавая вопросы «да/нет» о его физических свойствах. Affordance20Q включает 1009 игр по 454 объектам и 59 аффордансам, все игры вручную отфильтрованы, уточнены и аннотированы. Мы провели всесторонние эксперименты с 15 современными БЯМ и обнаружили существенный разрыв (~20 пунктов) по сравнению с человеческой производительностью. Анализ информационного выигрыша (IG) на основе KL-дивергенции дополнительно показывает, что модели не задают различающие вопросы по мере развития игры. Для преодоления разрыва мы разработали индукцию правил с привязкой к базам знаний (KARI) — конвейер на основе БЯМ, который генерирует правила аффордансов, обоснованные свидетельствами из баз знаний (БЗ). KARI улучшает показатели открытых БЯМ до 15,2 пункта, однако ограниченный охват БЗ препятствует дальнейшему прогрессу. Мы публикуем весь наш код и данные по адресу https://github.com/1171-jpg/Affordance20Q.git.

English

Affordance reasoning, the inference of an object's action possibilities from its physical properties (e.g., shape and material), is fundamental to human physical understanding and increasingly critical for Large Language Models (LLMs). However, existing affordance benchmarks largely expose explicit object identities in the evaluation setup, allowing models to rely on memorized object-affordance mappings rather than reasoning over physical properties. To address this gap, we introduce Affordance20Q, a novel affordance reasoning benchmark formulated as a 20-Questions game without exposing the object's identity. In each game, the model identifies a hidden object's affordance from a candidate set by asking yes/no questions about its physical properties. Affordance20Q comprises 1,009 games over 454 objects and 59 affordances, all manually filtered, refined, and annotated. We conduct comprehensive experiments with 15 state-of-the-art LLMs and find a substantial gap (~20 points) compared to human performance. A KL-based information-gain (IG) analysis further shows that models fail to ask discriminating questions as the game progresses. To close the gap, we develop KB-Anchored Rule Induction (KARI), a pipeline based on LLMs that generates affordance rules grounded in evidence from knowledge bases (KBs). KARI improves open-source LLMs by up to 15.2 points, while the limited coverage of KBs hinders further gains. We release all our code and data at https://github.com/1171-jpg/Affordance20Q.git