AFUN: Naar een Affordantie-Fundamentmodel voor Begrip van Functionaliteit

Samenvatting

Affordantiebegrip overbrugt visuele perceptie en fysieke actie, en dient als een uitlegbare interface voor robotmanipulatie in open en ongestructureerde echte omgevingen. Het bouwen van een funderingsmodel voor affordantie dat niet alleen begrijpt waar en hoe de interactie zou moeten plaatsvinden, maar ook generaliseert over diverse omgevingen, objecten en taken, blijft echter een langdurige onderzoeksuitdaging. Bestaande methoden pakken doorgaans slechts een deel van deze uitdaging aan: ofwel het lokaliseren van taakrelevante regio's zonder uitvoerbare beweging te specificeren, ofwel het voorspellen van beweging maar met beperkte schaalbaarheid. In dit artikel presenteren we ons model, een stap in de richting van een funderingsmodel voor affordantie voor functionaliteitsbegrip. Vanuit een enkele RGB-D observatie en een taal-taakbeschrijving voorspelt ons model een taakconditioneel functioneel masker (waar te interageren) en een 3D bewegingcurve na contact (hoe te interageren). Om open-wereld generalisatie te ondersteunen, bouwen we een grootschalige gestandaardiseerde datapijplijn die heterogene robot-, mens-, simulatie- en echte scandata omzet in een gedeeld affordantieschema met taal, maskers en objectgecentreerde 3D bewegingslabels. We evalueren ons model vanuit drie aspecten: voor affordantiesegmentatie presteert ons model aanzienlijk beter dan alle basislijnen over 8 testreeksen uit 4 benchmarks, met een verbetering van de gemiddelde gIoU/cIoU met +23,9/+26,3; voor voorspelling van contactpunten voorspelt het aanzienlijk nauwkeurigere punten, met een trefferpercentagetoename van 12,7–61,3% ten opzichte van de beste basislijn; en voor 3D beweging behaalt het de beste prestaties op alle drie testreeksen. Ons model kan worden ingezet voor robotmanipulatie in de echte wereld zonder fijnafstemming voor robotlichaam of het gebruik van taakspecifieke heuristieken, wat het vermogen aantoont om zich aan te passen aan open-wereld affordantietaken. Projectpagina: https://www.zhaoningwang.com/AFUN

English

Affordance understanding bridges visual perception and physical action, serving as an explainable interface for robot manipulation in open and unstructured real-world environments. Yet, building an affordance foundation model that not only understands where and how the interaction should happen, but also generalizes across diverse environments, objects, and tasks, remains a long-standing research challenge. Existing methods typically address only part of this challenge, either localizing task-relevant regions without specifying executable motion, or predicting motion but with limited scalability. In this paper, we present ourmodel, a step towards an affordance foundation model for functionality understanding. From a single RGB-D observation and a language task description, ourmodel predicts a task-conditional functional mask (where to interact) and a 3D post-contact motion curve (how to interact). To support open-world generalization, we build a large-scale standardized data pipeline that converts heterogeneous robot, human, simulation, and real-world scan data into a shared affordance schema with language, masks, and object-centric 3D motion labels. We evaluate ourmodel from three aspects: for affordance segmentation, ourmodel outperforms all baselines by a large margin across 8 test sets from 4 benchmarks, improving mean gIoU/cIoU by +23.9/+26.3; for contact-point prediction, it predicts substantially more accurate points, with a 12.7--61.3% hit-rate gain over the best baseline; and for 3D motion, it achieves the best performance on all three test sets. ourmodel can be deployed for real-world robot manipulation without finetuning for robot embodiment or using task-specific heuristics, demonstrating the ability to adapt to open-world affordance tasks. Project page: https://www.zhaoningwang.com/AFUN