AFFORDANCE20Q: Evaluatie van affordantie-redenering vanuit fysieke eigenschappen

Samenvatting

Affordantieredenering, het afleiden van actiemogelijkheden van een object uit zijn fysieke eigenschappen (bijv. vorm en materiaal), is fundamenteel voor het menselijk fysiek begrip en wordt steeds crucialer voor grote taalmodellen (LLMs). Bestaande affordantiebenchmarks geven echter grotendeels expliciete objectidentiteiten bloot in de evaluatieopstelling, waardoor modellen kunnen vertrouwen op gememoriseerde object-affordantiekoppelingen in plaats van te redeneren over fysieke eigenschappen. Om deze leemte aan te pakken, introduceren we Affordance20Q, een nieuwe affordabletiebenchmark geformuleerd als een 20-vragenspel zonder de identiteit van het object bloot te geven. In elk spel identificeert het model de affordantie van een verborgen object uit een kandidaatset door ja/nee-vragen te stellen over de fysieke eigenschappen. Affordance20Q omvat 1.009 spelletjes over 454 objecten en 59 affordanties, allemaal handmatig gefilterd, verfijnd en geannoteerd. We voeren uitgebreide experimenten uit met 15 state-of-the-art LLMs en vinden een aanzienlijke kloof (~20 punten) vergeleken met menselijke prestaties. Een op KL gebaseerde informatiewinstanalyse (IG) toont verder aan dat modellen er niet in slagen onderscheidende vragen te stellen naarmate het spel vordert. Om de kloof te dichten, ontwikkelen we Kennisbank-verankerde Regelinductie (KARI), een op LLMs gebaseerde pijplijn die affordantieregels genereert die geworteld zijn in bewijs uit kennishanken (KB's). KARI verbetert open-source LLMs met maar liefst 15,2 punten, terwijl de beperkte dekking van KB's verdere winst belemmert. We geven al onze code en gegevens vrij op https://github.com/1171-jpg/Affordance20Q.git.

English

Affordance reasoning, the inference of an object's action possibilities from its physical properties (e.g., shape and material), is fundamental to human physical understanding and increasingly critical for Large Language Models (LLMs). However, existing affordance benchmarks largely expose explicit object identities in the evaluation setup, allowing models to rely on memorized object-affordance mappings rather than reasoning over physical properties. To address this gap, we introduce Affordance20Q, a novel affordance reasoning benchmark formulated as a 20-Questions game without exposing the object's identity. In each game, the model identifies a hidden object's affordance from a candidate set by asking yes/no questions about its physical properties. Affordance20Q comprises 1,009 games over 454 objects and 59 affordances, all manually filtered, refined, and annotated. We conduct comprehensive experiments with 15 state-of-the-art LLMs and find a substantial gap (~20 points) compared to human performance. A KL-based information-gain (IG) analysis further shows that models fail to ask discriminating questions as the game progresses. To close the gap, we develop KB-Anchored Rule Induction (KARI), a pipeline based on LLMs that generates affordance rules grounded in evidence from knowledge bases (KBs). KARI improves open-source LLMs by up to 15.2 points, while the limited coverage of KBs hinders further gains. We release all our code and data at https://github.com/1171-jpg/Affordance20Q.git