AFFORDANCE20Q : Évaluation du raisonnement d'affordance à partir des propriétés physiques

Résumé

Le raisonnement sur les affordances, qui consiste à déduire les possibilités d'action d’un objet à partir de ses propriétés physiques (par exemple, sa forme et sa matière), est fondamental pour la compréhension physique humaine et devient de plus en plus crucial pour les grands modèles de langage (LLMs). Cependant, les benchmarks existants sur les affordances révèlent largement l’identité explicite des objets dans le cadre d’évaluation, ce qui permet aux modèles de s’appuyer sur des correspondances mémorisées entre objets et affordances plutôt que de raisonner sur les propriétés physiques. Pour combler cette lacune, nous présentons Affordance20Q, un nouveau benchmark de raisonnement sur les affordances formulé comme un jeu des 20 questions sans révéler l’identité de l’objet. Dans chaque partie, le modèle identifie l’affordance d’un objet caché parmi un ensemble de candidats en posant des questions oui/non sur ses propriétés physiques. Affordance20Q comprend 1 009 parties portant sur 454 objets et 59 affordances, toutes filtrées, affinées et annotées manuellement. Nous menons des expériences approfondies avec 15 LLMs de pointe et constatons un écart substantiel (~20 points) par rapport à la performance humaine. Une analyse du gain d’information (IG) basé sur la divergence KL montre en outre que les modèles ne parviennent pas à poser des questions discriminantes au fur et à mesure que la partie progresse. Pour combler cet écart, nous développons l’Induction de règles ancrées dans les KB (KARI), un pipeline basé sur les LLMs qui génère des règles d’affordance étayées par des preuves provenant de bases de connaissances (KBs). KARI améliore les LLMs open source jusqu’à 15,2 points, tandis que la couverture limitée des KBs entrave des gains supplémentaires. Nous publions l’ensemble de notre code et de nos données à l’adresse https://github.com/1171-jpg/Affordance20Q.git.

English

Affordance reasoning, the inference of an object's action possibilities from its physical properties (e.g., shape and material), is fundamental to human physical understanding and increasingly critical for Large Language Models (LLMs). However, existing affordance benchmarks largely expose explicit object identities in the evaluation setup, allowing models to rely on memorized object-affordance mappings rather than reasoning over physical properties. To address this gap, we introduce Affordance20Q, a novel affordance reasoning benchmark formulated as a 20-Questions game without exposing the object's identity. In each game, the model identifies a hidden object's affordance from a candidate set by asking yes/no questions about its physical properties. Affordance20Q comprises 1,009 games over 454 objects and 59 affordances, all manually filtered, refined, and annotated. We conduct comprehensive experiments with 15 state-of-the-art LLMs and find a substantial gap (~20 points) compared to human performance. A KL-based information-gain (IG) analysis further shows that models fail to ask discriminating questions as the game progresses. To close the gap, we develop KB-Anchored Rule Induction (KARI), a pipeline based on LLMs that generates affordance rules grounded in evidence from knowledge bases (KBs). KARI improves open-source LLMs by up to 15.2 points, while the limited coverage of KBs hinders further gains. We release all our code and data at https://github.com/1171-jpg/Affordance20Q.git