AFFORDANCE20Q: Evaluierung des Affordance Reasonings anhand physikalischer Eigenschaften

Zusammenfassung

Die Affordanz-Reasoning, also das Ableiten der Handlungsmöglichkeiten eines Objekts aus seinen physikalischen Eigenschaften (z. B. Form und Material), ist grundlegend für das physikalische Verständnis des Menschen und wird zunehmend wichtiger für Große Sprachmodelle (Large Language Models, LLMs). Bestehende Affordanz-Benchmarks legen jedoch in der Evaluierung weitgehend explizite Objektidentitäten offen, sodass Modelle auf gespeicherte Objekt-Affordanz-Zuordnungen zurückgreifen können, anstatt über physikalische Eigenschaften zu schließen. Um diese Lücke zu schließen, führen wir Affordance20Q ein, einen neuartigen Affordanz-Reasoning-Benchmark, der als 20-Fragen-Spiel formuliert ist, ohne die Objektidentität preiszugeben. In jedem Spiel identifiziert das Modell die Affordanz eines versteckten Objekts aus einer Kandidatenmenge, indem es Ja/Nein-Fragen zu dessen physikalischen Eigenschaften stellt. Affordance20Q umfasst 1.009 Spiele über 454 Objekte und 59 Affordanzen, die alle manuell gefiltert, verfeinert und annotiert wurden. Wir führen umfassende Experimente mit 15 hochmodernen LLMs durch und stellen eine erhebliche Lücke (~20 Punkte) im Vergleich zur menschlichen Leistung fest. Eine KI-basierte Informationsgewinn-Analyse (IG) zeigt zudem, dass Modelle im Verlauf des Spiels keine diskriminierenden Fragen stellen. Um diese Lücke zu schließen, entwickeln wir KB-Anchored Rule Induction (KARI), eine auf LLMs basierende Pipeline, die Affordanzregeln erzeugt, die auf Belegen aus Wissensbasen (KBs) beruhen. KARI verbessert Open-Source-LLMs um bis zu 15,2 Punkte, während die begrenzte Abdeckung der Wissensbasen weitere Verbesserungen behindert. Wir veröffentlichen unseren gesamten Code und unsere Daten unter https://github.com/1171-jpg/Affordance20Q.git.

English

Affordance reasoning, the inference of an object's action possibilities from its physical properties (e.g., shape and material), is fundamental to human physical understanding and increasingly critical for Large Language Models (LLMs). However, existing affordance benchmarks largely expose explicit object identities in the evaluation setup, allowing models to rely on memorized object-affordance mappings rather than reasoning over physical properties. To address this gap, we introduce Affordance20Q, a novel affordance reasoning benchmark formulated as a 20-Questions game without exposing the object's identity. In each game, the model identifies a hidden object's affordance from a candidate set by asking yes/no questions about its physical properties. Affordance20Q comprises 1,009 games over 454 objects and 59 affordances, all manually filtered, refined, and annotated. We conduct comprehensive experiments with 15 state-of-the-art LLMs and find a substantial gap (~20 points) compared to human performance. A KL-based information-gain (IG) analysis further shows that models fail to ask discriminating questions as the game progresses. To close the gap, we develop KB-Anchored Rule Induction (KARI), a pipeline based on LLMs that generates affordance rules grounded in evidence from knowledge bases (KBs). KARI improves open-source LLMs by up to 15.2 points, while the limited coverage of KBs hinders further gains. We release all our code and data at https://github.com/1171-jpg/Affordance20Q.git