AFFORDANCE20Q: Evaluación del razonamiento de affordance a partir de propiedades físicas

Resumen

El razonamiento de affordances, es decir, la inferencia de las posibilidades de acción de un objeto a partir de sus propiedades físicas (como forma y material), es fundamental para la comprensión física humana y cada vez más crítico para los modelos de lenguaje de gran escala (LLMs). Sin embargo, los benchmarks existentes de affordances exponen en gran medida identidades explícitas de objetos en la configuración de evaluación, lo que permite que los modelos se basen en mapeos memorizados objeto-affordance en lugar de razonar sobre propiedades físicas. Para abordar esta carencia, presentamos Affordance20Q, un nuevo benchmark de razonamiento de affordances formulado como un juego de las 20 preguntas sin exponer la identidad del objeto. En cada juego, el modelo identifica la affordance de un objeto oculto a partir de un conjunto candidato formulando preguntas de sí/no sobre sus propiedades físicas. Affordance20Q comprende 1,009 juegos sobre 454 objetos y 59 affordances, todos filtrados, refinados y anotados manualmente. Realizamos experimentos exhaustivos con 15 LLMs de última generación y encontramos una brecha sustancial (~20 puntos) en comparación con el desempeño humano. Un análisis de ganancia de información (IG) basado en KL muestra además que los modelos no logran formular preguntas discriminatorias a medida que avanza el juego. Para cerrar la brecha, desarrollamos Inducción de Reglas Anclada en KB (KARI), un pipeline basado en LLMs que genera reglas de affordance fundamentadas en evidencia proveniente de bases de conocimiento (KBs). KARI mejora los LLMs de código abierto en hasta 15.2 puntos, mientras que la cobertura limitada de las KBs dificulta mayores avances. Publicamos todo nuestro código y datos en https://github.com/1171-jpg/Affordance20Q.git.

English

Affordance reasoning, the inference of an object's action possibilities from its physical properties (e.g., shape and material), is fundamental to human physical understanding and increasingly critical for Large Language Models (LLMs). However, existing affordance benchmarks largely expose explicit object identities in the evaluation setup, allowing models to rely on memorized object-affordance mappings rather than reasoning over physical properties. To address this gap, we introduce Affordance20Q, a novel affordance reasoning benchmark formulated as a 20-Questions game without exposing the object's identity. In each game, the model identifies a hidden object's affordance from a candidate set by asking yes/no questions about its physical properties. Affordance20Q comprises 1,009 games over 454 objects and 59 affordances, all manually filtered, refined, and annotated. We conduct comprehensive experiments with 15 state-of-the-art LLMs and find a substantial gap (~20 points) compared to human performance. A KL-based information-gain (IG) analysis further shows that models fail to ask discriminating questions as the game progresses. To close the gap, we develop KB-Anchored Rule Induction (KARI), a pipeline based on LLMs that generates affordance rules grounded in evidence from knowledge bases (KBs). KARI improves open-source LLMs by up to 15.2 points, while the limited coverage of KBs hinders further gains. We release all our code and data at https://github.com/1171-jpg/Affordance20Q.git