AFUN : Vers un modèle de fondation d’affordance pour la compréhension de la fonctionnalité

Résumé

La compréhension de l’affordance fait le lien entre perception visuelle et action physique, servant d’interface explicable pour la manipulation robotique dans des environnements réels ouverts et non structurés. Pourtant, construire un modèle fondamental d’affordance qui non seulement comprend où et comment l’interaction devrait se produire, mais qui généralise également à travers divers environnements, objets et tâches, reste un défi de recherche de longue date. Les méthodes existantes n’abordent généralement qu’une partie de ce défi, soit en localisant les régions pertinentes pour la tâche sans spécifier le mouvement exécutable, soit en prédisant le mouvement mais avec une évolutivité limitée. Dans cet article, nous présentons ourmodel, un pas vers un modèle fondamental d’affordance pour la compréhension de la fonctionnalité. À partir d’une unique observation RGB-D et d’une description de tâche en langage, ourmodel prédit un masque fonctionnel conditionné par la tâche (où interagir) et une courbe de mouvement 3D post-contact (comment interagir). Pour soutenir la généralisation en environnement ouvert, nous construisons un pipeline de données standardisé à grande échelle qui convertit des données hétérogènes issues de robots, d’humains, de simulations et de scans du monde réel en un schéma d’affordance partagé avec langage, masques et étiquettes de mouvement 3D centrées sur l’objet. Nous évaluons ourmodel sous trois aspects : pour la segmentation d’affordance, ourmodel surpasse toutes les lignes de base avec une large marge sur 8 ensembles de test provenant de 4 bancs d’essai, améliorant le gIoU/cIoU moyen de +23,9/+26,3 ; pour la prédiction de points de contact, il prédit des points nettement plus précis, avec un gain de taux de réussite de 12,7 à 61,3 % par rapport à la meilleure ligne de base ; et pour le mouvement 3D, il atteint la meilleure performance sur les trois ensembles de test. ourmodel peut être déployé pour la manipulation robotique réelle sans ajustement pour l’incarnation du robot ni utilisation d’heuristiques spécifiques à la tâche, démontrant ainsi sa capacité à s’adapter aux tâches d’affordance en environnement ouvert. Page du projet : https://www.zhaoningwang.com/AFUN

English

Affordance understanding bridges visual perception and physical action, serving as an explainable interface for robot manipulation in open and unstructured real-world environments. Yet, building an affordance foundation model that not only understands where and how the interaction should happen, but also generalizes across diverse environments, objects, and tasks, remains a long-standing research challenge. Existing methods typically address only part of this challenge, either localizing task-relevant regions without specifying executable motion, or predicting motion but with limited scalability. In this paper, we present ourmodel, a step towards an affordance foundation model for functionality understanding. From a single RGB-D observation and a language task description, ourmodel predicts a task-conditional functional mask (where to interact) and a 3D post-contact motion curve (how to interact). To support open-world generalization, we build a large-scale standardized data pipeline that converts heterogeneous robot, human, simulation, and real-world scan data into a shared affordance schema with language, masks, and object-centric 3D motion labels. We evaluate ourmodel from three aspects: for affordance segmentation, ourmodel outperforms all baselines by a large margin across 8 test sets from 4 benchmarks, improving mean gIoU/cIoU by +23.9/+26.3; for contact-point prediction, it predicts substantially more accurate points, with a 12.7--61.3% hit-rate gain over the best baseline; and for 3D motion, it achieves the best performance on all three test sets. ourmodel can be deployed for real-world robot manipulation without finetuning for robot embodiment or using task-specific heuristics, demonstrating the ability to adapt to open-world affordance tasks. Project page: https://www.zhaoningwang.com/AFUN